論文の概要: General Intelligence-based Fragmentation (GIF): A framework for peak-labeled spectra simulation
- arxiv url: http://arxiv.org/abs/2511.09571v1
- Date: Fri, 14 Nov 2025 01:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.332741
- Title: General Intelligence-based Fragmentation (GIF): A framework for peak-labeled spectra simulation
- Title(参考訳): General Intelligence-based Fragmentation (GIF):ピークラベルスペクトルシミュレーションのためのフレームワーク
- Authors: Margaret R. Martin, Soha Hassoun,
- Abstract要約: General Intelligence-based Fragmentation (GIF)は、構造化プロンプトと推論を用いたスペクトルシミュレーションを通じて、事前訓練されたLCMをガイドする。
GPT-4o と GPT-4o-mini はそれぞれ、シミュレーションされたスペクトルと真のスペクトルの間に 0.36 と 0.35 のコサイン類似性が得られる。
- 参考スコア(独自算出の注目度): 2.442168164204936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite growing reference libraries and advanced computational tools, progress in the field of metabolomics remains constrained by low rates of annotating measured spectra. The recent developments of large language models (LLMs) have led to strong performance across a wide range of generation and reasoning tasks, spurring increased interest in LLMs' application to domain-specific scientific challenges, such as mass spectra annotation. Here, we present a novel framework, General Intelligence-based Fragmentation (GIF), that guides pretrained LLMs through spectra simulation using structured prompting and reasoning. GIF utilizes tagging, structured inputs/outputs, system prompts, instruction-based prompts, and iterative refinement. Indeed, GIF offers a structured alternative to ad hoc prompting, underscoring the need for systematic guidance of LLMs on complex scientific tasks. Using GIF, we evaluate current generalist LLMs' ability to use reasoning towards fragmentation and to perform intensity prediction after fine-tuning. We benchmark performance on a novel QA dataset, the MassSpecGym QA-sim dataset, that we derive from the MassSpecGym dataset. Through these implementations of GIF, we find that GPT-4o and GPT-4o-mini achieve a cosine similarity of 0.36 and 0.35 between the simulated and true spectra, respectively, outperforming other pretrained models including GPT-5, Llama-3.1, and ChemDFM, despite GPT-5's recency and ChemDFM's domain specialization. GIF outperforms several deep learning baselines. Our evaluation of GIF highlights the value of using LLMs not only for spectra simulation but for enabling human-in-the-loop workflows and structured, explainable reasoning in molecular fragmentation.
- Abstract(参考訳): 参照ライブラリや高度な計算ツールの増加にもかかわらず、メタボロミクスの分野の進歩は、測定されたスペクトルのアノテート率の低さによって制限されている。
大規模言語モデル(LLM)の最近の発展は、幅広い世代や推論タスクに強いパフォーマンスをもたらし、LLMがマススペクトルアノテーションのようなドメイン固有の科学的課題に適用することへの関心が高まった。
本稿では、構造化プロンプトと推論を用いたスペクトルシミュレーションにより、事前学習したLLMをガイドする新しいフレームワーク、General Intelligence-based Fragmentation(GIF)を提案する。
GIFはタグ付け、構造化インプット/アウトプット、システムプロンプト、命令ベースのプロンプト、反復リファインメントを利用する。
実際、GIFはアドホックのプロンプトに代えて構造化された代替手段を提供しており、複雑な科学的タスクにおいてLLMの体系的なガイダンスの必要性を強調している。
GIFを用いて,フラグメンテーションに対する推論と微調整後の強度予測を行う,現在のジェネラリスト LLM の能力を評価する。
我々は、新しいQAデータセットであるMassSpecGym QA-simデータセットの性能をベンチマークし、MassSpecGymデータセットから導出した。
GPT-4o と GPT-4o-mini は、GPT-5 や Llama-3.1 や ChemDFM など、GPT-5 の完全性や ChemDFM のドメイン特化にもかかわらず、シミュレーションされたスペクトルと真のスペクトルの間でそれぞれ0.36 と 0.35 のコサイン類似性を達成している。
GIFはいくつかのディープラーニングのベースラインを上回ります。
GIFによる評価は, スペクトルシミュレーションだけでなく, 分子断片化における人間内ワークフローの実現や, 構造的, 説明可能な推論にLLMを用いることの価値を強調した。
関連論文リスト
- GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - OASIS: A Deep Learning Framework for Universal Spectroscopic Analysis Driven by Novel Loss Functions [4.0097349146966925]
技術に依存しない自動スペクトル分析のための機械学習(ML)フレームワークを提案する。
OASISは、戦略的に設計された合成データセットでトレーニングされたモデルを通じて、その汎用性を達成する。
本研究は、高性能MLモデルを開発するための重要な資源効率戦略として、損失関数の最適化を強調した。
論文 参考訳(メタデータ) (2025-09-15T01:28:51Z) - LUMIR: an LLM-Driven Unified Agent Framework for Multi-task Infrared Spectroscopy Reasoning [12.138903544219724]
本研究では,低データ条件下での正確な赤外分光分析を実現するためのフレームワークであるLUMIRを紹介する。
LUMIRは構造化文学知識ベース、自動前処理、特徴抽出、予測モデリングを統合パイプラインに統合する。
利用可能なミルク近赤外データセット、中国の薬草、貯蔵期間の異なるCitri Reticulatae Pericarpium(CRP)、産業排水CODデータセット、Tecator、Cornなど、さまざまなデータセットで検証された。
論文 参考訳(メタデータ) (2025-07-29T03:20:51Z) - SpecCLIP: Aligning and Translating Spectroscopic Measurements for Stars [6.314253302704276]
我々は、LLMにインスパイアされた方法論を恒星スペクトル分析に拡張する基盤モデルフレームワークであるSpecCLIPを提案する。
大規模データセットの基盤モデルをトレーニングすることで、さまざまな下流アプリケーションをサポートする堅牢で情報に富んだ埋め込みを学ぶことが私たちのゴールです。
これらのモデルを中規模ラベル付きデータセットに微調整することで、恒星パラメータ推定や化学特性決定といったタスクへの適応性が向上することを示した。
論文 参考訳(メタデータ) (2025-07-02T17:49:52Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。