論文の概要: Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes
- arxiv url: http://arxiv.org/abs/2507.22940v2
- Date: Sat, 02 Aug 2025 10:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.793203
- Title: Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes
- Title(参考訳): 信頼できる推論: LLM中間思考プロセスにおける実測精度の評価と向上
- Authors: Rui Jiao, Yue Zhang, Jinku Li,
- Abstract要約: 本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
- 参考スコア(独自算出の注目度): 16.451488374845407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel framework addressing a critical vulnerability in Large Language Models (LLMs): the prevalence of factual inaccuracies within intermediate reasoning steps despite correct final answers. This phenomenon poses substantial risks in high-stakes domains including healthcare, legal analysis, and scientific research, where erroneous yet confidently presented reasoning can mislead users into dangerous decisions. Our framework integrates three core components: (1) a specialized fact-checking classifier trained on counterfactually augmented data to detect subtle factual inconsistencies within reasoning chains; (2) an enhanced Group Relative Policy Optimization (GRPO) reinforcement learning approach that balances factuality, coherence, and structural correctness through multi-dimensional rewards; and (3) a mechanistic interpretability method examining how factuality improvements manifest in model activations during reasoning processes. Extensive evaluation across multi state-of-the-art models reveals concerning patterns: even leading models like Claude-3.7 and GPT-o1 demonstrate reasoning factual accuracy of only 81.93% and 82.57% respectively. Our approach significantly enhances factual robustness (up to 49.90% improvement) while maintaining or improving performance on challenging benchmarks including Math-500, AIME-2024, and GPQA. Furthermore, our neural activation-level analysis provides actionable insights into how factual enhancements reshape reasoning trajectories within model architectures, establishing foundations for future training methodologies that explicitly target factual robustness through activation-guided optimization.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) における致命的な脆弱性に対処する新しい枠組みを提案する。
この現象は、医療、法学分析、科学研究などの高度な領域において重大なリスクを生じさせ、誤った根拠が提示され、ユーザを危険な判断に導く可能性がある。
本フレームワークは3つの中核的要素を統合している。(1) 推論チェーン内の微妙な事実不整合を検出するために、デファクトチェックを専門的に訓練したファクトチェック分類器、(2) 多次元報酬による事実性、コヒーレンス、構造的正しさのバランスをとる強化グループ相対政策最適化(GRPO)強化学習手法、(3) 推論過程におけるモデルアクティベーションにおける事実性改善がどのように現れるかを調べる機械的解釈可能性手法である。
Claude-3.7 や GPT-o1 のような先進的なモデルでさえ、それぞれ81.93% と 82.57% の実際の正確さの理由を示す。
提案手法は,Math-500, AIME-2024, GPQAなどの挑戦的ベンチマークの性能を維持・改善しながら, 現実の堅牢性(最大49.90%の改善)を大幅に向上させる。
さらに、我々のニューラルアクティベーションレベル分析は、モデルアーキテクチャ内の推論軌跡を具現化して、アクティベーション誘導最適化による現実的ロバスト性を明確に目標とする将来のトレーニング方法論の基礎を確立する方法について、実用的な洞察を提供する。
関連論文リスト
- Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models [0.8399688944263844]
ステップレベルの確率分布解析によりLLM推論品質を定量化するフレームワークであるEvalQReasonを提案する。
このフレームワークは、隣接する推論ステップ間の局所的コヒーレンスを測定するCSD(Consecutive Step Divergence)と、最終回答とグローバルなアライメントを評価するSFC(Step-to-Final Convergence)という2つの補完アルゴリズムを導入している。
論文 参考訳(メタデータ) (2026-02-02T16:32:40Z) - Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning [22.32435186013626]
本稿では,いくつかの潜在能力因子の線形変換としてベンチマーク性能をモデル化した因果表現学習フレームワークを提案する。
このアプローチを6つのベンチマークで評価された1500以上のモデルを含む包括的データセットに適用することにより、観測された性能変動を確実に説明できる簡潔な3ノード線形因果構造を同定する。
論文 参考訳(メタデータ) (2025-06-12T06:07:42Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks [0.7988085110283119]
Corr2Cause のデータセットによる最近の結果は、最先端の LLM がランダムベースラインをわずかに上回っていることを示している。
我々は、構造化知識グラフを構築するためのモデルを導くことによって、その思考を構造化する能力を備えたモデルを提供する。
Qwen3-32Bモデル(推論モデル)を用いたCorr2Causeデータセットベンチマークのテストサブセットの実験は、標準的なダイレクトプロンプトメソッドよりも大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-05-23T15:37:40Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。