論文の概要: OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.19766v1
- Date: Fri, 27 Mar 2026 03:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.058686
- Title: OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models
- Title(参考訳): OThink-SRR1:大規模言語モデルのための強化学習による検索・精製・推論
- Authors: Haijian Liang, Zenghao Niu, Junjie Wu, Changwang Zhang, Wangchunshu Zhou, Jun Wang,
- Abstract要約: OThink-SRR1は、強化学習を通じてトレーニングされた反復的なサーチ-リファイン-推論プロセスで大きなモデルを強化するフレームワークである。
その中核となるRefineステージは、回収された文書を推論する前に簡潔で関連する事実に蒸留する。
4つのマルチホップQAベンチマーク実験により,提案手法はより少ない検索ステップとトークンを用いながら,強いベースラインよりも優れた精度が得られることが示された。
- 参考スコア(独自算出の注目度): 27.82040547996176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) expands the knowledge of Large Language Models (LLMs), yet current static retrieval methods struggle with complex, multi-hop problems. While recent dynamic retrieval strategies offer improvements, they face two key challenges: 1) irrelevant retrieved noise can misdirect the reasoning process, and 2) processing full documents incurs prohibitive computational and latency costs. To address these issues, we propose OThink-SRR1, a framework that enhances large models with an iterative Search-Refine-Reason process trained via reinforcement learning. Its core Refine stage distills retrieved documents into concise, relevant facts before reasoning. We introduce GRPO-IR, an end-to-end reinforcement learning algorithm that rewards accurate evidence identification while penalizing excessive retrievals, thus training the model to be both focused and efficient. Experiments on four multi-hop QA benchmarks show our approach achieves superior accuracy over strong baselines while using fewer retrieval steps and tokens. This positions OThink-SRR1 as a potent foundational model for information-seeking agents.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の知識を拡大するが、現在の静的検索手法は複雑なマルチホップ問題に対処する。
最近の動的検索戦略は改善を提供するが、それらは2つの大きな課題に直面している。
1)無関係に回収された雑音は、推論過程を誤指示することができ、
2)全文書の処理は計算コストと遅延コストを禁ずる。
これらの問題に対処するため,我々は,強化学習を用いて学習した反復探索-精細推論プロセスを用いて,大規模モデルを強化するフレームワークであるOThink-SRR1を提案する。
その中核となるRefineステージは、回収された文書を推論する前に簡潔で関連する事実に蒸留する。
我々は、過剰な検索をペナルティ化しながら、正確な証拠の特定に報いるエンドツーエンドの強化学習アルゴリズムGRPO-IRを導入し、集中と効率の両立を訓練する。
4つのマルチホップQAベンチマーク実験により,提案手法はより少ない検索ステップとトークンを用いながら,強いベースラインよりも優れた精度が得られることが示された。
これにより、OThink-SRR1は情報探索エージェントの強力な基盤モデルとして位置づけられる。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。