論文の概要: From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs
- arxiv url: http://arxiv.org/abs/2507.22716v1
- Date: Wed, 30 Jul 2025 14:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.25915
- Title: From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs
- Title(参考訳): 十分から反射へ:LLMの検索強化推論における強化誘導思考品質
- Authors: Jie He, Victor Gutierrez Basulto, Jeff Z. Pan,
- Abstract要約: 本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
- 参考スコア(独自算出の注目度): 13.410543801811992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning-based retrieval-augmented generation (RAG) methods enhance the reasoning abilities of large language models (LLMs). However, most rely only on final-answer rewards, overlooking intermediate reasoning quality. This paper analyzes existing RAG reasoning models and identifies three main failure patterns: (1) information insufficiency, meaning the model fails to retrieve adequate support; (2) faulty reasoning, where logical or content-level flaws appear despite sufficient information; and (3) answer-reasoning inconsistency, where a valid reasoning chain leads to a mismatched final answer. We propose TIRESRAG-R1, a novel framework using a think-retrieve-reflect process and a multi-dimensional reward system to improve reasoning and stability. TIRESRAG-R1 introduces: (1) a sufficiency reward to encourage thorough retrieval; (2) a reasoning quality reward to assess the rationality and accuracy of the reasoning chain; and (3) a reflection reward to detect and revise errors. It also employs a difficulty-aware reweighting strategy and training sample filtering to boost performance on complex tasks. Experiments on four multi-hop QA datasets show that TIRESRAG-R1 outperforms prior RAG methods and generalizes well to single-hop tasks. The code and data are available at: https://github.com/probe2/TIRESRAG-R1.
- Abstract(参考訳): 強化学習に基づく検索強化生成(RAG)手法は,大規模言語モデル(LLM)の推論能力を高める。
しかし、ほとんどの場合、最終回答の報酬にのみ依存し、中間的な推論品質を見落としている。
本稿では,既存のRAG推論モデルを分析し,(1)情報不足,すなわちモデルが適切なサポートを得ることができないこと,(2)論理的・コンテンツレベルの欠陥が十分な情報に拘わらず現れること,(3)応答推論の不整合,(3)有効な推論連鎖がミスマッチした最終回答をもたらすこと,の3つの主要な失敗パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いて推論と安定性を向上させる新しいフレームワークTIRESRAG-R1を提案する。
TIRESRAG-R1では,(1)徹底的な検索を促進するための十分な報酬,(2)推論チェーンの合理性と精度を評価するための推論品質報酬,(3)誤りを検出し,修正するための反射報酬を紹介する。
また、複雑なタスクのパフォーマンスを高めるために、困難な再重み付け戦略とサンプルフィルタリングのトレーニングも採用している。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
コードとデータは、https://github.com/probe2/TIRESRAG-R1.comで公開されている。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability [16.87554947089102]
本稿では,強化学習(RL)を用いて学習した透過的なRAG生成フレームワークであるARENAを提案する。
構造化された生成と適応的な報酬計算に基づいて、我々のRLベースのトレーニングにより、重要な証拠を特定し、構造化された推論を行い、解釈可能な決定トレースで回答を生成することができる。
論文 参考訳(メタデータ) (2025-05-19T15:40:29Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。