論文の概要: GlobalRAG: Enhancing Global Reasoning in Multi-hop Question Answering via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.20548v1
- Date: Thu, 23 Oct 2025 13:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.020337
- Title: GlobalRAG: Enhancing Global Reasoning in Multi-hop Question Answering via Reinforcement Learning
- Title(参考訳): GlobalRAG:強化学習によるマルチホップ質問応答におけるグローバル推論の強化
- Authors: Jinchang Luo, Mingquan Cheng, Fan Wan, Ni Li, Xiaoling Xia, Shuangshuang Tian, Tingcheng Bian, Haiwei Wang, Haohuan Fu, Yan Tao,
- Abstract要約: 強化学習がRAG(Regegration-augmented Generation)の改善を約束している。
マルチホップQAにおけるグローバル推論を強化するための強化学習フレームワークであるGlobalRAGを提案する。
GlobalRAGは質問をサブゴールに分解し、推論と検索をコーディネートし、証拠を反復的に精査する。
- 参考スコア(独自算出の注目度): 6.445352753377104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has recently shown promise in improving retrieval-augmented generation (RAG). Despite these advances, its effectiveness in multi-hop question answering (QA) remains limited by two fundamental limitations: (i) global planning absence to structure multi-step reasoning, and (ii) unfaithful execution, which hinders effective query formulation and consistent use of retrieved evidence. We propose GlobalRAG, a reinforcement learning framework designed to enhance global reasoning in multi-hop QA. GlobalRAG decomposes questions into subgoals, coordinates retrieval with reasoning, and refines evidence iteratively. To guide this process, we introduce Planning Quality Reward and SubGoal Completion Reward, which encourage coherent planning and reliable subgoal execution. In addition, a progressive weight annealing strategy balances process-oriented and outcome-based objectives. Extensive experiments on both in-domain and out-of-domain benchmarks demonstrate that GlobalRAG significantly outperforms strong baselines while using only 8k training data (42% of the training data used by strong baselines), achieving average improvements of 14.2% in both EM and F1.
- Abstract(参考訳): 強化学習は、最近、検索強化世代(RAG)を改善することを約束している。
これらの進歩にもかかわらず、マルチホップ質問応答(QA)の有効性は、以下の2つの基本的な制限によって制限されている。
一 構造的多段階推論に欠くグローバルな計画、及び
(ii) 効率的なクエリの定式化と検索された証拠の一貫した使用を妨げる不信な実行。
マルチホップQAにおけるグローバル推論を強化するための強化学習フレームワークであるGlobalRAGを提案する。
GlobalRAGは質問をサブゴールに分解し、推論と検索をコーディネートし、証拠を反復的に精査する。
このプロセスの指針として,コヒーレントな計画と信頼性の高いサブゴール実行を促進するプランニング品質リワードとサブゴールコンプリートリワードを導入する。
さらに、プログレッシブウェイトアニール戦略はプロセス指向と結果指向の目標のバランスをとる。
ドメイン内およびドメイン外ベンチマークの広範な実験により、GlobalRAGは8kトレーニングデータ(強いベースラインで使用されるトレーニングデータの42%)を使用して、EMとF1の両方で平均14.2%の改善を達成した。
関連論文リスト
- Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - UR$^2$: Unify RAG and Reasoning through Reinforcement Learning [17.319590573147565]
大規模言語モデル(LLM)は2つの相補的パラダイムを通じて顕著な能力を示してきた: 検索-拡張生成(RAG)と、検証リワード(RLVR)からの強化学習(Reinforcement Learning)である。
我々は、強化学習による検索と推論を統一する一般的なフレームワークUR2(Unified RAG and Reasoning)を提案する。
オープンドメインQA、MMLU-Pro、医学、数学的推論タスクにわたる実験は、UR$2$が既存のRAG法とRL法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-08-08T09:33:20Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answering [57.875992666888855]
MHQA(Multi-Hop Question Answering)タスクは、多様な知識領域にまたがる多段階推論のオーケストレーションにおいて課題となる。
推論と検索をシームレスに統合する相乗的デュアルプロセスフレームワークであるDualRAGを提案する。
論文 参考訳(メタデータ) (2025-04-25T10:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。