論文の概要: Meta-Reinforcement Learning with Self-Reflection for Agentic Search
- arxiv url: http://arxiv.org/abs/2603.11327v1
- Date: Wed, 11 Mar 2026 21:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.661209
- Title: Meta-Reinforcement Learning with Self-Reflection for Agentic Search
- Title(参考訳): エージェント探索のための自己回帰を用いたメタ強化学習
- Authors: Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi,
- Abstract要約: 本稿では,自己回帰を用いたエージェント検索のためのテキスト内メタ強化学習(RL)法であるMR-Searchを紹介する。
MR-Searchは、単一の独立したエピソード内のポリシーを微妙な報酬で最適化する代わりに、過去のエピソードを条件付けし、エピソードをまたいだ検索戦略を適応させるポリシーを訓練する。
- 参考スコア(独自算出の注目度): 101.39929522022514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces MR-Search, an in-context meta reinforcement learning (RL) formulation for agentic search with self-reflection. Instead of optimizing a policy within a single independent episode with sparse rewards, MR-Search trains a policy that conditions on past episodes and adapts its search strategy across episodes. MR-Search learns to learn a search strategy with self-reflection, allowing search agents to improve in-context exploration at test-time. Specifically, MR-Search performs cross-episode exploration by generating explicit self-reflections after each episode and leveraging them as additional context to guide subsequent attempts, thereby promoting more effective exploration during test-time. We further introduce a multi-turn RL algorithm that estimates a dense relative advantage at the turn level, enabling fine-grained credit assignment on each episode. Empirical results across various benchmarks demonstrate the advantages of MR-Search over baselines based RL, showing strong generalization and relative improvements of 9.2% to 19.3% across eight benchmarks. Our code and data are available at https://github.com/tengxiao1/MR-Search.
- Abstract(参考訳): 本稿では,自己回帰を用いたエージェント検索のためのテキスト内メタ強化学習(RL)法であるMR-Searchを紹介する。
MR-Searchは、単一の独立したエピソード内のポリシーを粗末な報酬で最適化する代わりに、過去のエピソードを条件付けし、エピソードをまたいだ検索戦略を適応させるポリシーを訓練する。
MR-Searchは、セルフリフレクションで検索戦略を学ぶことで、検索エージェントがテスト時にコンテキスト内探索を改善することができる。
具体的には、MR-Searchは、各エピソードの後に明示的な自己反射を発生させ、それを追加の文脈として活用することにより、その後の試みをガイドし、テスト時間中により効果的な探索を促進する。
さらに、ターンレベルでの相対的優位性を推定し、各エピソードの詳細なクレジット割り当てを可能にするマルチターンRLアルゴリズムを導入する。
様々なベンチマークでの実証的な結果は、ベースラインベースのRLよりもMR-Searchの利点を示し、8つのベンチマークで9.2%から19.3%の強い一般化と相対的な改善を示した。
私たちのコードとデータはhttps://github.com/tengxiao1/MR-Searchで公開されています。
関連論文リスト
- SE-Search: Self-Evolving Search Agent via Memory and Dense Reward [87.79131676521656]
Retrieval augmented generation (RAG)は、検索した外部知識を条件づけることにより、大規模言語モデル(LLM)における幻覚や事実エラーを低減する。
既存の手法は、無関係または騒々しい文書を蓄積し、希少な強化学習信号に依存することが多い。
我々は,3つのコンポーネントによるオンライン検索行動を改善するセルフ進化検索エージェントであるtextbfSelf-textbfEvolving textbfSearchを提案する。
論文 参考訳(メタデータ) (2026-02-06T09:14:07Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning [0.8388591755871735]
R-SearchはReasoning-Search統合のための強化学習フレームワークである。
ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。
R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
論文 参考訳(メタデータ) (2025-06-04T17:29:22Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - Learning to Rank for Multiple Retrieval-Augmented Models through Iterative Utility Maximization [21.115495457454365]
本稿では,複数検索拡張世代(RAG)エージェントを対象とした統合検索エンジンの設計について検討する。
本稿では,検索エンジンがRAGエージェントの検索結果を生成し,オフラインフェーズにおいて検索した文書の品質に関するフィードバックを収集する反復的手法を提案する。
我々は、これをオンライン環境に適応させ、リアルタイムなエージェントのフィードバックに基づいて、検索エンジンがその振る舞いを洗練できるようにする。
論文 参考訳(メタデータ) (2024-10-13T17:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。