論文の概要: CRAFT: Calibrated Reasoning with Answer-Faithful Traces via Reinforcement Learning for Multi-Hop Question Answering
- arxiv url: http://arxiv.org/abs/2602.01348v1
- Date: Sun, 01 Feb 2026 17:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.728932
- Title: CRAFT: Calibrated Reasoning with Answer-Faithful Traces via Reinforcement Learning for Multi-Hop Question Answering
- Title(参考訳): CRAFT:マルチホップ質問回答のための強化学習による回答に忠実なトレースの校正的推論
- Authors: Yu Liu, Wenxiao Zhang, Cong Cao, Fangfang Yuan, Weizhuo Chen, Cheng Hu, Pin Xu, Yuling Yang, Kun Peng, Diandian Guo, Qiang Sun, Yanbing Liu, Jin B. Hong, Zhiyuan Ma,
- Abstract要約: Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)をマルチホップ質問応答に利用するために広く使われている。
マルチホップQAにおける推論は,マルチホップ構成により本質的に複雑であり,ノイズ検索によりさらに不安定となる。
CRAFTは、応答生成時に忠実な推論を行うためにモデルを訓練する強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 19.391824811629125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is widely used to ground Large Language Models (LLMs) for multi-hop question answering. Recent work mainly focused on improving answer accuracy via fine-tuning and structured or reinforcement-based optimization. However, reliable reasoning in response generation faces three challenges: 1) Reasoning Collapse. Reasoning in multi-hop QA is inherently complex due to multi-hop composition and is further destabilized by noisy retrieval. 2) Reasoning-answer inconsistency. Due to the intrinsic uncertainty of LLM generation and exposure to evidence--distractor mixtures, models may produce correct answers that are not faithfully supported by their intermediate reasoning or evidence. 3) Loss of format control. Traditional chain-of-thought generation often deviates from required structured output formats, leading to incomplete or malformed structured content. To address these challenges, we propose CRAFT (Calibrated Reasoning with Answer-Faithful Traces), a Group Relative Policy Optimization (GRPO) based reinforcement learning framework that trains models to perform faithful reasoning during response generation. CRAFT employs dual reward mechanisms to optimize multi-hop reasoning: deterministic rewards ensure structural correctness while judge-based rewards verify semantic faithfulness. This optimization framework supports controllable trace variants that enable systematic analysis of how structure and scale affect reasoning performance and faithfulness. Experiments on three multi-hop QA benchmarks show that CRAFT improves both answer accuracy and reasoning faithfulness across model scales, with the CRAFT 7B model achieving competitive performance with closed-source LLMs across multiple reasoning trace settings.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)をマルチホップ質問応答に利用するために広く使われている。
最近の研究は主に、微調整および構造化または強化に基づく最適化による回答精度の向上に重点を置いている。
しかし、応答生成における信頼できる推論には3つの課題がある。
1)崩壊の理由。
マルチホップQAにおける推論は,マルチホップ構成により本質的に複雑であり,ノイズ検索によりさらに不安定となる。
2【不一致の理由】
LLM生成の本質的な不確実性やエビデンスへの露出により、モデルはそれらの中間的推論やエビデンスによって忠実に支持されない正しい答えを生み出す可能性がある。
3) フォーマット制御の喪失。
伝統的なチェーン・オブ・ソート生成は、要求される構造化された出力形式から逸脱することが多く、不完全または不正な構造化コンテンツをもたらす。
これらの課題に対処するために,グループ相対政策最適化(GRPO)に基づく強化学習フレームワークであるCRAFT(Calibrated Reasoning with Answer-Faithful Traces)を提案する。
CRAFTはマルチホップ推論の最適化に双対報酬機構を用いる:決定論的報酬は構造的正しさを保証し、審査に基づく報酬は意味的忠実性を検証する。
この最適化フレームワークは制御可能なトレース変種をサポートし、構造とスケールが推論のパフォーマンスと忠実さにどのように影響するかを体系的な分析を可能にする。
3つのマルチホップQAベンチマークの実験では、CRAFTは応答精度とモデルスケール間の忠実度の両方を改善し、CRAFT 7Bモデルは複数の推論トレース設定をまたいだクローズソースLLMとの競合性能を達成する。
関連論文リスト
- Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - PRISMA: Reinforcement Learning Guided Two-Stage Policy Optimization in Multi-Agent Architecture for Open-Domain Multi-Hop Question Answering [26.994531058178982]
大規模コーパスに対する現実世界のオープンドメイン問題への回答は、レトリーバル・拡張ジェネレーション(RAG)システムにおいて重要な課題である。
近年の研究では、検索強化推論プロセスのエンドツーエンド最適化に強化学習(RL)を採用している。
PRISMAはPlan-Retrieve-Inspect-Memoizeアーキテクチャを特徴とする分離誘導型フレームワークである。
論文 参考訳(メタデータ) (2026-01-09T01:38:38Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA [10.122669382758122]
モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。
結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
論文 参考訳(メタデータ) (2025-09-30T08:34:16Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - ComposeRAG: A Modular and Composable RAG for Corpus-Grounded Multi-Hop Question Answering [42.238086712267396]
ComposeRAGは、RAGパイプラインをアトミックで構成可能なモジュールに分解する、新しいモジュラー抽象化である。
精度と接地忠実性の両方において、一貫して強いベースラインを上回ります。
検証ファーストの設計は、低品質の検索設定において、未解決の回答を10%以上削減する。
論文 参考訳(メタデータ) (2025-05-30T21:10:30Z) - DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answering [57.875992666888855]
MHQA(Multi-Hop Question Answering)タスクは、多様な知識領域にまたがる多段階推論のオーケストレーションにおいて課題となる。
推論と検索をシームレスに統合する相乗的デュアルプロセスフレームワークであるDualRAGを提案する。
論文 参考訳(メタデータ) (2025-04-25T10:43:53Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。