論文の概要: SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning
- arxiv url: http://arxiv.org/abs/2604.01993v1
- Date: Thu, 02 Apr 2026 12:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.795095
- Title: SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning
- Title(参考訳): SAFE:マルチホップ推論における誤り訂正のための段階的原子フィードバック
- Authors: Daeyong Kwon, Soyoung Yoon, Seung-won Hwang,
- Abstract要約: 我々は,非接地型Chain-of-Thought(CoT)を,厳密に検証可能な基底要素列に置き換える動的ベンチマークフレームワークSAFEを提案する。
筆者らのフレームワークは,(1) 列車時検証,(1) 原子エラー分類と知識グラフ(KG) の地下検証パイプラインの確立,最大14% のインスタンスを調査不能と判断,(2) 推論時検証,(2) 検証されたデータセットに基づいてトレーニングされたフィードバックモデルがリアルタイムで非地下ステップを動的に検出する,という2つのフェーズで運用されている。
- 参考スコア(独自算出の注目度): 35.58279719577653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-hop QA benchmarks frequently reward Large Language Models (LLMs) for spurious correctness, masking ungrounded or flawed reasoning steps. To shift toward rigorous reasoning, we propose SAFE, a dynamic benchmarking framework that replaces the ungrounded Chain-of-Thought (CoT) with a strictly verifiable sequence of grounded entities. Our framework operates across two phases: (1) train-time verification, where we establish an atomic error taxonomy and a Knowledge Graph (KG)-grounded verification pipeline to eliminate noisy supervision in standard benchmarks, identifying up to 14% of instances as unanswerable, and (2) inference-time verification, where a feedback model trained on this verified dataset dynamically detects ungrounded steps in real-time. Experimental results demonstrate that SAFE not only exposes the critical flaws of existing benchmarks at train-time, but also significantly outperforms standard baselines, achieving an average accuracy gain of 8.4 pp while guaranteeing verifiable trajectories at inference-time.
- Abstract(参考訳): マルチホップQAベンチマークは、大きな言語モデル(LLM)に対して、素早い正しさ、根拠のない、または欠陥のある推論ステップをマスキングすることに対して、しばしば報いる。
厳密な推論にシフトするために,非接地型連鎖(CoT)を厳密に検証可能な基底要素列に置き換える動的ベンチマークフレームワークであるSAFEを提案する。
筆者らのフレームワークは,(1) 列車時検証,(1) 原子エラー分類と知識グラフ(KG) の地下検証パイプラインを構築し,標準ベンチマークのノイズを排除し,最大14% のインスタンスを調査不能と判断し,(2) 推論時検証,(2) 検証データセットでトレーニングされたフィードバックモデルがリアルタイムで非地下ステップを動的に検出する。
実験結果から,SAFEは既存のベンチマークの致命的な欠陥を列車時だけでなく,標準基準値の8.4ppの精度向上を達成し,推論時に検証可能な軌道を保証していることがわかった。
関連論文リスト
- PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。