論文の概要: Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability
- arxiv url: http://arxiv.org/abs/2505.13258v1
- Date: Mon, 19 May 2025 15:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.706593
- Title: Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability
- Title(参考訳): 適応逆強化学習による決定的トレーサビリティの効率化と透過的RAG
- Authors: Jingyi Ren, Yekun Xu, Xiaolong Wang, Weitao Li, Weizhi Ma, Yang Liu,
- Abstract要約: 本稿では,強化学習(RL)を用いて学習した透過的なRAG生成フレームワークであるARENAを提案する。
構造化された生成と適応的な報酬計算に基づいて、我々のRLベースのトレーニングにより、重要な証拠を特定し、構造化された推論を行い、解釈可能な決定トレースで回答を生成することができる。
- 参考スコア(独自算出の注目度): 16.87554947089102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has significantly improved the performance of large language models (LLMs) on knowledge-intensive domains. However, although RAG achieved successes across distinct domains, there are still some unsolved challenges: 1) Effectiveness. Existing research mainly focuses on developing more powerful RAG retrievers, but how to enhance the generator's (LLM's) ability to utilize the retrieved information for reasoning and generation? 2) Transparency. Most RAG methods ignore which retrieved content actually contributes to the reasoning process, resulting in a lack of interpretability and visibility. To address this, we propose ARENA (Adaptive-Rewarded Evidence Navigation Agent), a transparent RAG generator framework trained via reinforcement learning (RL) with our proposed rewards. Based on the structured generation and adaptive reward calculation, our RL-based training enables the model to identify key evidence, perform structured reasoning, and generate answers with interpretable decision traces. Applied to Qwen2.5-7B-Instruct and Llama3.1-8B-Instruct, abundant experiments with various RAG baselines demonstrate that our model achieves 10-30% improvements on all multi-hop QA datasets, which is comparable with the SOTA Commercially-developed LLMs (e.g., OpenAI-o1, DeepSeek-R1). Further analyses show that ARENA has strong flexibility to be adopted on new datasets without extra training. Our models and codes are publicly released.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能を大幅に改善した。
しかしながら、RAGは異なるドメインで成功したが、未解決の課題がまだいくつかある。
1)有効性。
既存の研究は、より強力なRAGレトリバーの開発に重点を置いているが、検索した情報を利用して推論と生成を行うジェネレータ(LLM)の能力を強化するには、どうすればよいのか?
2)透明性。
ほとんどのRAGメソッドは、どの検索されたコンテンツが実際に推論プロセスに寄与するかを無視しており、解釈可能性や可視性が欠如している。
そこで本稿では,強化学習(RL)を用いて学習した透明なRAG生成フレームワークであるARENA(Adaptive-Rewarded Evidence Navigation Agent)を提案する。
構造化された生成と適応的な報酬計算に基づいて、我々のRLベースのトレーニングにより、重要な証拠を特定し、構造化された推論を行い、解釈可能な決定トレースで回答を生成することができる。
Qwen2.5-7B-InstructとLlama3.1-8B-Instructに応用すると、様々なRAGベースラインによる豊富な実験により、我々のモデルは、全てのマルチホップQAデータセットに対して10~30%の改善を達成している。
さらに分析したところ、ARENAは追加のトレーニングなしで新しいデータセットに採用できる柔軟性が強いことが示されている。
私たちのモデルとコードは公開されています。
関連論文リスト
- Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - RAG-RL: Advancing Retrieval-Augmented Generation via RL and Curriculum Learning [11.872929831119661]
本稿では、検索強化生成(RAG)設定に特化して訓練された最初の推論言語モデル(RLM)であるRAG-RLを紹介する。
RAG-RLは、より強力な回答生成モデルにより、検索された情報のより大きなセット内で関連するコンテキストを識別できることを実証する。
強化学習(RL)後学習プロセスにおけるカリキュラム設計は,モデル性能向上のための強力なアプローチであることを示す。
論文 参考訳(メタデータ) (2025-03-17T02:53:42Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - RAG-Reward: Optimizing RAG with Reward Modeling and RLHF [8.911260109659489]
Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。
RAG最適化のための強化学習における報酬モデルの役割は未定である。
報酬モデルを開発するためのフレームワークである textbfRAG-Reward を導入する。
論文 参考訳(メタデータ) (2025-01-22T22:59:19Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。