Fugu-MT 論文翻訳(概要): R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning

論文の概要: R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.23794v1
Date: Mon, 26 May 2025 12:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.50576
Title: R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning
Title（参考訳）: R3-RAG:強化学習によるLLMのステップバイステップ推論と検索
Authors: Yuan Li, Qi Luo, Xiaonan Li, Bufan Li, Qinyuan Cheng, Bo Wang, Yining Zheng, Yuxin Wang, Zhangyue Yin, Xipeng Qiu,
Abstract要約: Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
参考スコア（独自算出の注目度）: 62.742230250513025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) integrates external knowledge with Large Language Models (LLMs) to enhance factual correctness and mitigate hallucination. However, dense retrievers often become the bottleneck of RAG systems due to their limited parameters compared to LLMs and their inability to perform step-by-step reasoning. While prompt-based iterative RAG attempts to address these limitations, it is constrained by human-designed workflows. To address these limitations, we propose $\textbf{R3-RAG}$, which uses $\textbf{R}$einforcement learning to make the LLM learn how to $\textbf{R}$eason and $\textbf{R}$etrieve step by step, thus retrieving comprehensive external knowledge and leading to correct answers. R3-RAG is divided into two stages. We first use cold start to make the model learn the manner of iteratively interleaving reasoning and retrieval. Then we use reinforcement learning to further harness its ability to better explore the external retrieval environment. Specifically, we propose two rewards for R3-RAG: 1) answer correctness for outcome reward, which judges whether the trajectory leads to a correct answer; 2) relevance-based document verification for process reward, encouraging the model to retrieve documents that are relevant to the user question, through which we can let the model learn how to iteratively reason and retrieve relevant documents to get the correct answer. Experimental results show that R3-RAG significantly outperforms baselines and can transfer well to different retrievers. We release R3-RAG at https://github.com/Yuan-Li-FNLP/R3-RAG.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさを高め、幻覚を緩和する。しかし、LLMと比較してパラメータが限られており、ステップバイステップの推論ができないため、高密度レトリバーはRAGシステムのボトルネックとなることが多い。プロンプトベースの反復RAGはこれらの制限に対処しようとするが、人間設計のワークフローによって制限される。これらの制限に対処するために、$\textbf{R}$einforcement Learningを使用して、LLMに$\textbf{R}$easonと$\textbf{R}$etrieveのステップを学習させる。 R3-RAGは2つの段階に分けられる。まず最初にコールドスタートを用いて、モデルに推論と検索を反復的にインターリーブする方法を学習させる。次に、強化学習を用いて、外部検索環境をよりよく探索する能力をさらに活用する。具体的には、R3-RAGの2つの報酬を提案する。 1) 報奨の正解は,軌道が正しい解答につながるか否かを判断する。 2) プロセス報酬に対する関連性に基づく文書検証を行い,ユーザ質問に関連する文書の検索をモデルに促す。実験の結果,R3-RAGはベースラインを著しく上回り,異なるレトリバーに転送可能であることがわかった。我々はR3-RAGをhttps://github.com/Yuan-Li-FNLP/R3-RAGでリリースする。

関連論文リスト

Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking [31.73448933991891]
Retrieval-augmented Generation(RAG)は、幻覚を減らし、外部知識をLarge Language Models(LLM)に組み込むために重要である。 T$2$RAGは、原子三重項の単純でグラフのない知識ベースで動作する新しいフレームワークである。実験結果から,T$2$RAGは最先端のマルチラウンド法とグラフRAG法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2025-08-04T13:50:44Z)
From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。 4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文参考訳（メタデータ） (2025-07-30T14:29:44Z)
LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。 SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-16T17:53:18Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability [16.87554947089102]
本稿では,強化学習(RL)を用いて学習した透過的なRAG生成フレームワークであるARENAを提案する。構造化された生成と適応的な報酬計算に基づいて、我々のRLベースのトレーニングにより、重要な証拠を特定し、構造化された推論を行い、解釈可能な決定トレースで回答を生成することができる。
論文参考訳（メタデータ） (2025-05-19T15:40:29Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。 LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文参考訳（メタデータ） (2024-10-30T17:02:54Z)
W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文参考訳（メタデータ） (2024-08-15T22:34:44Z)
R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation [11.890598082534577]
Retrieval augmented generation (RAG) は、検索者によって提供される外部文書で大規模言語モデル(LLM)を拡張するために、多くのシナリオで適用されてきた。本稿では,R$2$AGを提案する。R$2$AGは,検索情報を検索用拡張生成に組み込む新しい拡張RAGフレームワークである。
論文参考訳（メタデータ） (2024-06-19T06:19:48Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文参考訳（メタデータ） (2023-05-23T17:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。