論文の概要: MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation
- arxiv url: http://arxiv.org/abs/2603.25253v1
- Date: Thu, 26 Mar 2026 09:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.227476
- Title: MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation
- Title(参考訳): MolQuest: 化学構造解明における帰納的推論のエージェント的評価のためのベンチマーク
- Authors: Taolin Han, Shuang Wu, Jinghang Wang, Yuhao Zhou, Renquan Lv, Bing Zhao, Wei Hu,
- Abstract要約: 分子構造解明のための新規なエージェントベース評価フレームワークであるMolQuestを紹介する。
既存のデータセットとは異なり、MolQuestは分子構造解明をマルチターンインタラクティブタスクとして定式化している。
その結果、現代のフロンティアモデルでは、真正の科学的シナリオにおいて重大な制限が示されることが明らかとなった。
- 参考スコア(独自算出の注目度): 20.62843594129358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) hold considerable potential for advancing scientific discovery, yet systematic assessment of their dynamic reasoning in real-world research remains limited. Current scientific evaluation benchmarks predominantly rely on static, single-turn Question Answering (QA) formats, which are inadequate for measuring model performance in complex scientific tasks that require multi-step iteration and experimental interaction. To address this gap, we introduce MolQuest, a novel agent-based evaluation framework for molecular structure elucidation built upon authentic chemical experimental data. Unlike existing datasets, MolQuest formalizes molecular structure elucidation as a multi-turn interactive task, requiring models to proactively plan experimental steps, integrate heterogeneous spectral sources (e.g., NMR, MS), and iteratively refine structural hypotheses. This framework systematically evaluates LLMs' abductive reasoning and strategic decision-making abilities within a vast and complex chemical space. Empirical results reveal that contemporary frontier models exhibit significant limitations in authentic scientific scenarios: notably, even state-of-the-art (SOTA) models achieve an accuracy of only approximately 50%, while the performance of most other models remains below the 30% threshold. This work provides a reproducible and extensible framework for science-oriented LLM evaluation, our findings highlight the critical gap in current LLMs' strategic scientific reasoning, setting a clear direction for future research toward AI that can actively participate in the scientific process.
- Abstract(参考訳): 大規模言語モデル(LLM)は科学的発見の進展にかなりの可能性を秘めているが、実際の研究におけるそれらの動的推論の体系的な評価は限られている。
現在の科学的評価ベンチマークは、多段階の反復と実験的な相互作用を必要とする複雑な科学的タスクにおいて、モデルパフォーマンスを測定するのに不十分な静的な単一ターン質問回答(QA)形式に大きく依存している。
このギャップに対処するため,本研究では,分子構造解明のための分子構造評価フレームワークであるMolQuestを紹介する。
既存のデータセットとは異なり、モルクエストは分子構造解明を多ターン対話的なタスクとして定式化し、モデルが実験段階を積極的に計画し、異種スペクトル源(例えばNMR、MS)を統合し、構造仮説を反復的に洗練することを要求する。
この枠組みは、広大で複雑な化学空間におけるLCMの誘因的推論と戦略的意思決定能力を体系的に評価する。
特に、最先端技術(SOTA)モデルでさえ、およそ50%の精度しか達成していないのに対して、他のほとんどのモデルの性能は30%未満である。
この研究は、科学指向のLLM評価のための再現可能で拡張可能なフレームワークを提供し、我々の発見は、現在のLLMの戦略的科学的推論における重要なギャップを浮き彫りにして、科学プロセスに積極的に参加できるAI研究への明確な方向を定めている。
関連論文リスト
- Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis [51.83339196548892]
ChemCraftは、知識ストレージから化学推論を分離する新しいフレームワークである。
ChemCraftは最小の推論コストで優れたパフォーマンスを実現する。
この研究は、AI支援化学のコスト効率とプライバシ保護のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-25T04:23:34Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。
生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。
このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (2025-12-17T16:20:03Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - The Evolving Role of Large Language Models in Scientific Innovation: Evaluator, Collaborator, and Scientist [3.7803247326675162]
科学革新は、LLM(Large Language Models)の急速な進歩によって、パラダイムシフトが進んでいる。
本調査では,3つの階層レベル – 評価,コラボレーション,科学者 – にまたがる科学革新におけるLLMの役割を,包括的に分類する枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-16T00:11:01Z) - Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery [0.0]
大規模言語モデルは、科学的に合理的に見えるが基本的な原則に反する出力をしばしば生成する。
本稿では、推論中心のモデルアーキテクチャと低ランク適応微調整を組み合わせた体系的なアプローチを提案する。
微調整されたシステムは96.3%の形式順守、97.4%の化学的妥当性、74.4%の合成可能性を達成する。
論文 参考訳(メタデータ) (2025-07-09T23:05:23Z) - RLDBF: Enhancing LLMs Via Reinforcement Learning With DataBase FeedBack [15.24890160206967]
本研究は,構造化された科学データを用いた大規模言語モデルの強化に関する体系的な研究の先駆者である。
大規模モデルにおける数値的不感度の固有の限界に対処するために,データベースフィードバックを用いた強化学習という,革新的な方法論を提案する。
論文 参考訳(メタデータ) (2025-03-28T14:18:29Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。