論文の概要: MolErr2Fix:Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Revision
- arxiv url: http://arxiv.org/abs/2509.00063v1
- Date: Tue, 26 Aug 2025 05:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.041219
- Title: MolErr2Fix:Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Revision
- Title(参考訳): MolErr2Fix:Modular Error Detection, Localization, Explanation, and Revisionによる化学におけるLCM信頼性のベンチマーク
- Authors: Yuyang Wu, Jinhui Ye, Shuhao Zhang, Lu Dai, Yonatan Bisk, Olexandr Isayev,
- Abstract要約: LLM(Large Language Models)は、分子科学における潜在的な可能性を示すが、しばしば化学的に不正確な記述を生成する。
これにより、科学的応用における堅牢性と信頼性に関する重要な懸念が持ち上がる。
分子記述における誤り検出と訂正におけるLCMの評価を目的としたMollErr2Fixベンチマークを提案する。
- 参考スコア(独自算出の注目度): 22.708008313748824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown growing potential in molecular sciences, but they often produce chemically inaccurate descriptions and struggle to recognize or justify potential errors. This raises important concerns about their robustness and reliability in scientific applications. To support more rigorous evaluation of LLMs in chemical reasoning, we present the MolErr2Fix benchmark, designed to assess LLMs on error detection and correction in molecular descriptions. Unlike existing benchmarks focused on molecule-to-text generation or property prediction, MolErr2Fix emphasizes fine-grained chemical understanding. It tasks LLMs with identifying, localizing, explaining, and revising potential structural and semantic errors in molecular descriptions. Specifically, MolErr2Fix consists of 1,193 fine-grained annotated error instances. Each instance contains quadruple annotations, i.e,. (error type, span location, the explanation, and the correction). These tasks are intended to reflect the types of reasoning and verification required in real-world chemical communication. Evaluations of current state-of-the-art LLMs reveal notable performance gaps, underscoring the need for more robust chemical reasoning capabilities. MolErr2Fix provides a focused benchmark for evaluating such capabilities and aims to support progress toward more reliable and chemically informed language models. All annotations and an accompanying evaluation API will be publicly released to facilitate future research.
- Abstract(参考訳): LLM(Large Language Models)は、分子科学における潜在的な可能性を示しているが、しばしば化学的に不正確な記述を生み出し、潜在的な誤りを認識し、正当化するのに苦労する。
これにより、科学的応用における堅牢性と信頼性に関する重要な懸念が提起される。
化学推論におけるLSMのより厳密な評価を支援するために,分子記述における誤り検出と修正に関するLCMの評価を目的としたMollErr2Fixベンチマークを提案する。
分子間テキスト生成やプロパティ予測に重点を置く既存のベンチマークとは異なり、MollErr2Fixはきめ細かい化学的理解を強調している。
分子記述中の潜在的構造的および意味的誤りを特定し、局所化し、説明し、修正する。
具体的には、MorErr2Fixは1,193個の微粒なアノテートエラーインスタンスで構成されている。
各インスタンスには4重アノテーション、すなわち4重アノテーションが含まれている。
(エラータイプ、スパン位置、説明、訂正)
これらのタスクは、現実世界の化学通信に必要な推論と検証のタイプを反映することを目的としている。
現在最先端のLCMの評価は、より堅牢な化学推論能力の必要性を強調し、顕著な性能のギャップを浮き彫りにしている。
MolErr2Fixは、そのような機能を評価するための集中ベンチマークを提供する。
すべてのアノテーションと関連する評価APIが公開され、将来の研究が促進される。
関連論文リスト
- MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs [30.030008221150407]
MolReasonerは、大規模言語モデルを記憶から化学推論に移行するために設計された2段階のフレームワークである。
まず,GPT-4o で生成した合成Chain-of-Thought(CoT) サンプルを用いてモデルの推論能力を初期化し,化学的精度を検証した Mol-SFT を提案する。
その後、Moll-RLは、化学構造と言語的記述との整合性を明確に設計した特殊報酬関数による強化学習を適用した。
論文 参考訳(メタデータ) (2025-08-04T05:10:11Z) - Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery [0.0]
大規模言語モデルはしばしば科学的に妥当だが、実際は無効な情報を生成する。
本稿では, このギャップを埋める手法として, 専門的な科学アシスタントを開発する。
論文 参考訳(メタデータ) (2025-07-09T23:05:23Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Improving Chemical Understanding of LLMs via SMILES Parsing [18.532188836688928]
CLEANMOLは、SMILES解析をクリーンで決定論的タスクのスイートに定式化する新しいフレームワークである。
適応的難易度スコアリングを伴う分子事前学習データセットを構築し,これらの課題に対してオープンソースのLCMを事前学習する。
以上の結果から,CLEANMOLは構造的理解を高めるだけでなく,Moll-Instructionsベンチマークのベースラインと競合する。
論文 参考訳(メタデータ) (2025-05-22T07:54:39Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。