論文の概要: Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2511.09109v2
- Date: Fri, 14 Nov 2025 01:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.721668
- Title: Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning
- Title(参考訳): 前方と後方を考える:検索強化推論のための多目的強化学習
- Authors: Wenda Wei, Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Lixin Su, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Xueqi Cheng,
- Abstract要約: Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
- 参考スコア(独自算出の注目度): 137.33138614095435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) has proven to be effective in mitigating hallucinations in large language models, yet its effectiveness remains limited in complex, multi-step reasoning scenarios. Recent efforts have incorporated search-based interactions into RAG, enabling iterative reasoning with real-time retrieval. Most approaches rely on outcome-based supervision, offering no explicit guidance for intermediate steps. This often leads to reward hacking and degraded response quality. We propose Bi-RAR, a novel retrieval-augmented reasoning framework that evaluates each intermediate step jointly in both forward and backward directions. To assess the information completeness of each step, we introduce a bidirectional information distance grounded in Kolmogorov complexity, approximated via language model generation probabilities. This quantification measures both how far the current reasoning is from the answer and how well it addresses the question. To optimize reasoning under these bidirectional signals, we adopt a multi-objective reinforcement learning framework with a cascading reward structure that emphasizes early trajectory alignment. Empirical results on seven question answering benchmarks demonstrate that Bi-RAR surpasses previous methods and enables efficient interaction and reasoning with the search engine during training and inference.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されているが、その効果は複雑な多段階推論シナリオに限られている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
ほとんどのアプローチは結果に基づく監視に依存しており、中間ステップに対する明確なガイダンスを提供していません。
これはしばしば、報酬のハッキングや応答品質の低下につながる。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
各ステップの情報完全性を評価するために,言語モデル生成確率を用いて近似したコルモゴロフ複雑性に基づく双方向情報距離を導入する。
この定量化は、現在の推論が答えからどこまで遠いかと、その疑問にどの程度うまく対処しているかを測る。
これらの双方向信号下での推論を最適化するために,初期軌道アライメントを重視したカスケード報酬構造を持つ多目的強化学習フレームワークを採用する。
7つの質問応答ベンチマークによる実験結果から,Bi-RARが従来の手法を超越し,学習や推論において検索エンジンとの効率的な対話と推論を可能にすることが示された。
関連論文リスト
- Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Deep RL with Hierarchical Action Exploration for Dialogue Generation [0.0]
本稿では,対話ポリシーの性能がサンプリングサイズと正の相関関係にあることを示す理論的解析と実験について述べる。
サンプリングプロセスにおいて最も有望な応答カテゴリを探索する新しい二重粒度Q関数を導入する。
提案アルゴリズムは, 説明可能性と制御性の両方を示し, 期待値の高い応答を生成する。
論文 参考訳(メタデータ) (2023-03-22T09:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。