論文の概要: UR$^2$: Unify RAG and Reasoning through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06165v1
- Date: Fri, 08 Aug 2025 09:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.17854
- Title: UR$^2$: Unify RAG and Reasoning through Reinforcement Learning
- Title(参考訳): UR$^2$:RAGの統合と強化学習による推論
- Authors: Weitao Li, Boran Xiang, Xiaolong Wang, Zhinan Gou, Weizhi Ma, Yang Liu,
- Abstract要約: 大規模言語モデル(LLM)は2つの相補的パラダイムを通じて顕著な能力を示してきた: 検索-拡張生成(RAG)と、検証リワード(RLVR)からの強化学習(Reinforcement Learning)である。
我々は、強化学習による検索と推論を統一する一般的なフレームワークUR2(Unified RAG and Reasoning)を提案する。
オープンドメインQA、MMLU-Pro、医学、数学的推論タスクにわたる実験では、UR2が既存のRAG法やRL法よりも大幅に優れていることが示されている。
- 参考スコア(独自算出の注目度): 18.28138049751889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities through two complementary paradigms: Retrieval-Augmented Generation (RAG), which enhances knowledge grounding, and Reinforcement Learning from Verifiable Rewards (RLVR), which optimizes complex reasoning abilities. However, these two capabilities are often developed in isolation, and existing efforts to unify them remain narrow in scope-typically limited to open-domain QA with fixed retrieval settings and task-specific assumptions. This lack of integration constrains generalization and limits the applicability of RAG-RL methods to broader domains. To bridge this gap, we propose UR2 (Unified RAG and Reasoning), a general framework that unifies retrieval and reasoning through reinforcement learning. UR2 introduces two key contributions: a difficulty-aware curriculum training that selectively invokes retrieval only for challenging problems, and a hybrid knowledge access strategy combining domain-specific offline corpora with LLM-generated summaries. These components are designed to enable dynamic coordination between retrieval and reasoning, improving adaptability across a diverse range of tasks. Experiments across open-domain QA, MMLU-Pro, medical, and mathematical reasoning tasks demonstrate that UR2 (built on Qwen2.5-3/7B and LLaMA-3.1-8B) significantly outperforms existing RAG and RL methods, achieving comparable performance to GPT-4o-mini and GPT-4.1-mini on several benchmarks. We have released all code, models, and data at https://github.com/Tsinghua-dhy/UR2.
- Abstract(参考訳): 大規模言語モデル(LLM)は、2つの相補的なパラダイムを通じて顕著な能力を示してきた: 知識の基盤を強化するRetrieval-Augmented Generation(RAG)と、複雑な推論能力を最適化するReinforcement Learning from Verifiable Rewards(RLVR)である。
しかし、これらの2つの機能は独立して開発されることが多く、既存の統合作業は、固定された検索設定とタスク固有の仮定を持つオープンドメインQAに限定されている。
この統合の欠如は一般化を制約し、RAG-RL法の適用範囲を広く制限する。
このギャップを埋めるために、強化学習を通して検索と推論を統一する一般的なフレームワークUR2(Unified RAG and Reasoning)を提案する。
UR2は、困難な問題に対してのみ検索を選択的に起動する難易度対応カリキュラムトレーニングと、ドメイン固有のオフラインコーパスとLLM生成サマリを組み合わせたハイブリッド知識アクセス戦略の2つを導入している。
これらのコンポーネントは、検索と推論の動的調整を可能にし、多様なタスクにまたがる適応性を改善するように設計されている。
オープンドメインのQA、MMLU-Pro、医学、数学的推論タスクにわたる実験では、UR2(Qwen2.5-3/7BとLLaMA-3.1-8B)が既存のRAG法とRL法を著しく上回り、GPT-4o-miniとGPT-4.1-miniに匹敵する性能を示した。
私たちはhttps://github.com/Tsinghua-dhy/UR2.comですべてのコード、モデル、データを公開しました。
関連論文リスト
- RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning [13.763558628816288]
RAGパイプラインにアプリケーション認識推論を明示的に組み込んだ原則付きモジュール拡張であるRAG+を紹介します。
RAG+は、知識とアライメントされたアプリケーションの例からなる二重コーパスを構築し、手動または自動で作成し、推論中に共同で両方のコーパスを取得する。
複数のモデルで実施された数学、法学、医学の分野での実験では、RAG+は標準的なRAGの変種を一貫して上回り、3.5%の平均的な改善を達成し、複雑なシナリオではピークが7.5%まで上昇することを示した。
論文 参考訳(メタデータ) (2025-06-13T08:06:49Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。