論文の概要: MeasHalu: Mitigation of Scientific Measurement Hallucinations for Large Language Models with Enhanced Reasoning
- arxiv url: http://arxiv.org/abs/2604.16929v1
- Date: Sat, 18 Apr 2026 09:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.242563
- Title: MeasHalu: Mitigation of Scientific Measurement Hallucinations for Large Language Models with Enhanced Reasoning
- Title(参考訳): MeasHalu:Reasoningを強化した大規模言語モデルのための科学計測幻覚の緩和
- Authors: Ruijun Huang, Zhiqiao Kang, Yuxuan Zhu, Junxiong Li, Jiahao Zhao, Minghuan Tan, Feng Jiang, Min Yang,
- Abstract要約: MeasHaluは、科学的測定幻覚を緩和するためのフレームワークである。
MeasHaluは幻覚率を大幅に削減し、MeasEvalベンチマークの全体的な精度を向上させる。
- 参考スコア(独自算出の注目度): 16.93649712632818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accurate extraction of scientific measurements from literature is a critical yet challenging task in AI4Science, enabling large-scale analysis and integration of quantitative research findings. However, Large Language Models (LLMs) frequently exhibit severe hallucinations, which significantly undermine the reliability of automated scientific document understanding systems. To address this problem, we propose MeasHalu, a novel framework for mitigating scientific measurement hallucinations through enhanced reasoning and targeted optimization. We first present a fine-grained taxonomy of measurement-specific hallucinations, categorizing errors across quantities, units, modifiers, and relations. Our approach incorporates a two-stage reasoning-aware fine-tuning strategy using augmented scientific data and process-based supervision. Furthermore, we introduce a progressive reward curriculum designed to penalize specific hallucination types, significantly improving extraction faithfulness. Experimental results demonstrate that MeasHalu substantially reduces hallucination rates and improves overall accuracy on the MeasEval benchmark. This work provides a targeted solution to a key bottleneck in automated scientific knowledge extraction, facilitating more trustworthy and scalable machine-assisted scientific literature analysis.
- Abstract(参考訳): 文献から科学的測定を正確に抽出することは、AI4Scienceにおいて重要な課題であり、大規模な分析と定量的研究結果の統合を可能にしている。
しかし、Large Language Models (LLM) は、しばしば深刻な幻覚を示し、自動化された科学文書理解システムの信頼性を著しく損なう。
この問題に対処するために,拡張推論と目標最適化による科学的計測幻覚を緩和する新しいフレームワークであるMeasHaluを提案する。
まず、量、単位、修飾子、関係にまたがる誤りを分類する、測定固有の幻覚のきめ細かい分類法を提示する。
提案手法は,2段階の推論型微調整戦略を,拡張現実科学データとプロセスベース監視を用いて取り入れたものである。
さらに,特定の幻覚型を罰するプログレッシブ報酬カリキュラムを導入し,抽出忠実度を大幅に改善した。
実験結果から,MeasHaluは幻覚率を大幅に低減し,MeasEvalベンチマークの全体的な精度を向上することが示された。
この研究は、自動化された科学知識抽出における重要なボトルネックに対するターゲットのソリューションを提供し、より信頼性が高くスケーラブルな機械支援科学文献分析を促進する。
関連論文リスト
- A Multi-Agent Human-LLM Collaborative Framework for Closed-Loop Scientific Literature Summarization [14.654160505140426]
我々は,AI,大規模言語モデル,人間科学者を統合したマルチエージェント・ヒューマン・イン・ザ・ループシステムであるElhuyarを紹介した。
このフレームワークは、論文のフィルタリング、データ抽出、フィッティングモデル、および要約結果のための特別エージェントにタスクを分散し、人間の監視が信頼性を確保する。
抽出されたデータ、視覚化、モデル方程式、テキスト要約を含む構造化されたレポートを生成し、反復的な精査を通じてより深い調査を可能にする。
論文 参考訳(メタデータ) (2026-04-01T22:58:42Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery [0.0]
大規模言語モデルは、科学的に合理的に見えるが基本的な原則に反する出力をしばしば生成する。
本稿では、推論中心のモデルアーキテクチャと低ランク適応微調整を組み合わせた体系的なアプローチを提案する。
微調整されたシステムは96.3%の形式順守、97.4%の化学的妥当性、74.4%の合成可能性を達成する。
論文 参考訳(メタデータ) (2025-07-09T23:05:23Z) - MedHal: An Evaluation Dataset for Medical Hallucination Detection [4.98142540436183]
MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。
MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
論文 参考訳(メタデータ) (2025-04-11T14:55:15Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。