論文の概要: Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2507.15586v4
- Date: Wed, 30 Jul 2025 11:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.814893
- Title: Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation
- Title(参考訳): 検索型世代のための強化学習による合理的エビデンス抽出の学習
- Authors: Xinping Zhao, Shouzheng Huang, Yan Zhong, Xinshuo Hu, Meishan Zhang, Baotian Hu, Min Zhang,
- Abstract要約: Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の精度を効果的に向上させる
それまでの手法では、明確な思考なしに証拠を直接抽出し、重要な手がかりをフィルタリングし、一般化に苦慮する危険性がある。
本稿では,(1)検索内容中の潜在的手がかりを明示的に推論し,(2)質問に答えるのに有用なキー手がかりを省略しないよう意識的に抽出することによる合理的証拠の抽出を学習するEvi Omniを提案する。
- 参考スコア(独自算出の注目度): 37.47571308389908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) effectively improves the accuracy of Large Language Models (LLMs). However, retrieval noises significantly impact the quality of LLMs' generation, necessitating the development of denoising mechanisms. Previous methods extract evidence straightforwardly without explicit thinking, which risks filtering out key clues and struggles with generalization. To this end, we propose EviOmni, which learns to extract rational evidence by (1) explicitly reasoning to identify potential cues within retrieval contents first, and then (2) consciously extracting to avoid omitting any key cues helpful for answering questions. Specifically, we frame evidence reasoning and evidence extraction into one unified response for end-to-end training; apply knowledge token masks for disentanglement to derive reasoning-based and extraction-based answers; and devise three types of verifiable reward functions, including answer, length, and format, to update the model via the policy optimization algorithm. Extensive experiments on three benchmark datasets show the effectiveness of EviOmni, providing compact and high-quality evidence, improving the accuracy of downstream tasks, and promoting effective application in online RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の精度を効果的に向上させる。
しかし, 検索ノイズはLLMの生成品質に大きく影響を与え, ノイズ除去機構の発達を必要とした。
従来手法では、明確な思考を伴わずに証拠を直接抽出し、重要な手がかりをフィルタリングし、一般化に苦慮する危険性がある。
そこで本研究では,(1)検索内容中の潜在的手がかりを明示的に特定し,(2)意識的に抽出し,質問に答えるのに役立つ重要な手がかりを排除し,合理的証拠を抽出することを学習するEviOmniを提案する。
具体的には、エンド・ツー・エンドトレーニングのための1つの統一された応答にエビデンス推論とエビデンス抽出を組み込み、推論に基づく解答と抽出に基づく解答を導出するための知識トークンマスクを適用し、応答、長さ、フォーマットを含む3種類の検証可能な報酬関数を考案し、ポリシー最適化アルゴリズムを介してモデルを更新する。
3つのベンチマークデータセットに対する大規模な実験は、EviOmniの有効性を示し、コンパクトで高品質なエビデンスを提供し、下流タスクの精度を改善し、オンラインRAGシステムにおける効果的な適用を促進する。
関連論文リスト
- ClueAnchor: Clue-Anchored Knowledge Reasoning Exploration and Optimization for Retrieval-Augmented Generation [82.28147821286709]
我々は、検索拡張世代(RAG)を向上するための新しいフレームワークであるClueAnchorを提案する。
ClueAnchorは、検索したコンテンツからキーキーを抽出し、異なる知識構成に基づいて複数の推論パスを生成する。
実験の結果、ClueAnchorはRAG以前のベースラインよりも完全性や堅牢性に優れていた。
論文 参考訳(メタデータ) (2025-05-30T09:18:08Z) - Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries [27.665853244467463]
本稿では,良質なクエリを通じてRAGシステム上で知識抽出を行うImplicit Knowledge extract Attack (IKEA)を紹介する。
IKEAはまずアンカーの概念を活用し、自然な外観でクエリを生成し、2つのメカニズムを設計し、RAGのプライバシーに関する知識を徹底的に「明らかに」する。
各種防御下でのイケアの有効性を実証し, 抽出効率の80%以上, 攻撃成功率の90%以上を基準線を超える実験を行った。
論文 参考訳(メタデータ) (2025-05-21T12:04:42Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - DeepRAG: Thinking to Retrieve Step by Step for Large Language Models [92.87532210660456]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。
クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。
実験の結果,DeepRAGは検索効率を向上し,回答精度を26.4%向上させ,検索強化推論の有効性を示した。
論文 参考訳(メタデータ) (2025-02-03T08:22:45Z) - SEER: Self-Aligned Evidence Extraction for Retrieval-Augmented Generation [21.823931225182115]
本稿では,バニラモデルをエビデンス抽出器として最適化するためのモデルに基づくエビデンス抽出学習フレームワークSEERを提案する。
提案手法は, 最終RAG性能を大幅に向上させ, 抽出した証拠の忠実度, 有用性, 簡潔性を向上し, 証拠の長さを9.25倍に短縮する。
論文 参考訳(メタデータ) (2024-10-15T06:26:24Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。