論文の概要: Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability
- arxiv url: http://arxiv.org/abs/2505.13258v2
- Date: Sat, 11 Oct 2025 05:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.555372
- Title: Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability
- Title(参考訳): Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability
- Authors: Jingyi Ren, Yekun Xu, Xiaolong Wang, Weitao Li, Weizhi Ma, Yang Liu,
- Abstract要約: Adaptive-Rewarded Evidence Navigation Agent (ARENA)は、RLを介してトレーニングされた透明で堅牢なRAGジェネレータフレームワークである。
構造化されたプロトコル、KL分散安定化および適応報酬計算モジュールに基づいて、ARENAはRAGジェネレータが鍵証拠を識別し、構造化推論を行い、解釈可能な決定トレースで回答を生成する。
- 参考スコア(独自算出の注目度): 15.949084214401692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) delivers substantial value in knowledge-intensive applications. Many recent works use reinforcement learning (RL) to elicit strong reasoning in RAG generators. However, two key challenges remain unresolved: (1) Transparency: most prior methods do not explicitly indicate which references are actually used during the reasoning that leads to the final answer, limiting interpretability and visibility; (2) Stability: the KL divergence estimator used in existing RL-based approaches may cause gradient spikes, leading to unstable training. To address these challenges, we propose Adaptive-Rewarded Evidence Navigation Agent (ARENA), a transparent and robust RAG generator framework trained via RL with designed rewards. Based on our structured protocol, KL divergence stabilization, and adaptive reward calculation modules, ARENA enables the RAG generator to identify key evidence, perform structured reasoning, and generate answers with interpretable decision traces. Applied to Qwen2.5-7B-Instruct and Llama3.1-8B-Instruct, extensive experiments across multiple baselines show 10-30% accuracy improvements on three multi-hop QA datasets, comparable to advanced closed-source LLMs (e.g., OpenAI o1, DeepSeek R1). Further analyses show that ARENA generalizes well to unseen datasets and tasks. Our models and codes are publicly released.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は知識集約型アプリケーションにおいてかなりの価値を提供する。
近年の多くの研究は、RAGジェネレータの強い推論を引き出すために強化学習(RL)を使用している。
透明性(Transparency): ほとんどの先行手法は、最終的な答えにつながる推論において実際にどの参照が使われているかを明確に示さないため、解釈可能性と可視性を制限する。
これらの課題に対処するために、設計された報酬でRLを介してトレーニングされた透明で堅牢なRAGジェネレータであるAdaptive-Rewarded Evidence Navigation Agent (ARENA)を提案する。
構造化されたプロトコル、KL分散安定化および適応報酬計算モジュールに基づいて、ARENAはRAGジェネレータが鍵証拠を識別し、構造化推論を行い、解釈可能な決定トレースで回答を生成する。
Qwen2.5-7B-InstructとLlama3.1-8B-Instructに応用すると、複数のベースラインにわたる広範な実験により、3つのマルチホップQAデータセットの精度が10~30%向上した。
さらなる分析によると、ARENAは目に見えないデータセットやタスクにうまく一般化している。
私たちのモデルとコードは公開されています。
関連論文リスト
- Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。
モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。
また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - RAG-RL: Advancing Retrieval-Augmented Generation via RL and Curriculum Learning [11.872929831119661]
本稿では、検索強化生成(RAG)設定に特化して訓練された最初の推論言語モデル(RLM)であるRAG-RLを紹介する。
RAG-RLは、より強力な回答生成モデルにより、検索された情報のより大きなセット内で関連するコンテキストを識別できることを実証する。
強化学習(RL)後学習プロセスにおけるカリキュラム設計は,モデル性能向上のための強力なアプローチであることを示す。
論文 参考訳(メタデータ) (2025-03-17T02:53:42Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - RAG-Reward: Optimizing RAG with Reward Modeling and RLHF [8.911260109659489]
Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。
RAG最適化のための強化学習における報酬モデルの役割は未定である。
報酬モデルを開発するためのフレームワークである textbfRAG-Reward を導入する。
論文 参考訳(メタデータ) (2025-01-22T22:59:19Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。