論文の概要: SE-Search: Self-Evolving Search Agent via Memory and Dense Reward
- arxiv url: http://arxiv.org/abs/2603.03293v1
- Date: Fri, 06 Feb 2026 09:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.117409
- Title: SE-Search: Self-Evolving Search Agent via Memory and Dense Reward
- Title(参考訳): SE-Search: メモリとDense Rewardによる自己進化型検索エージェント
- Authors: Jian Li, Yizhang Jin, Dongqi Liu, Hang Ding, Jiafu Wu, Dongsheng Chen, Yunhang Shen, Yulei Qin, Ying Tai, Chengjie Wang, Xiaotong Yuan, Yabiao Wang,
- Abstract要約: Retrieval augmented generation (RAG)は、検索した外部知識を条件づけることにより、大規模言語モデル(LLM)における幻覚や事実エラーを低減する。
既存の手法は、無関係または騒々しい文書を蓄積し、希少な強化学習信号に依存することが多い。
我々は,3つのコンポーネントによるオンライン検索行動を改善するセルフ進化検索エージェントであるtextbfSelf-textbfEvolving textbfSearchを提案する。
- 参考スコア(独自算出の注目度): 87.79131676521656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval augmented generation (RAG) reduces hallucinations and factual errors in large language models (LLMs) by conditioning generation on retrieved external knowledge. Recent search agents further cast RAG as an autonomous, multi-turn information-seeking process. However, existing methods often accumulate irrelevant or noisy documents and rely on sparse reinforcement learning signals. We propose \textbf{S}elf-\textbf{E}volving \textbf{Search}, a Self-Evolving Search agent that improves online search behavior through three components, memory purification, atomic query training, and dense rewards. SE-Search follows a \textit{Think-Search-Memorize} strategy that retains salient evidence while filtering irrelevant content. Atomic query training promotes shorter and more diverse queries, improving evidence acquisition. Dense rewards provide fine-grained feedback that speeds training. Experiments on single-hop and multi-hop question answering benchmarks show that \texttt{SE-Search-3B} outperforms strong baselines, yielding a $10.8$ point absolute improvement and a $33.8\%$ relative gain over Search-R1.\footnote{We will make the code and model weights publicly available upon acceptance.}
- Abstract(参考訳): Retrieval augmented generation (RAG)は、検索した外部知識を条件づけることにより、大規模言語モデル(LLM)における幻覚や事実エラーを低減する。
近年の検索エージェントはRAGを自律的な多ターン情報検索プロセスとして位置づけている。
しかし、既存の手法は無関係な文書や騒々しい文書を蓄積し、希少な強化学習信号に依存していることが多い。
本稿では,メモリの浄化,アトミッククエリトレーニング,高密度報酬といった3つのコンポーネントによるオンライン検索行動を改善するセルフ進化検索エージェントである \textbf{S}elf-\textbf{E}volving \textbf{Search} を提案する。
SE-Searchは、無関係なコンテンツをフィルタリングしながらまともな証拠を保持する、‘textit{Think-Search-Memorize} 戦略に従う。
アトミッククエリトレーニングは、より短く多様なクエリを促進し、エビデンス獲得を改善する。
ディエンス報酬は、トレーニングをスピードアップするきめ細かいフィードバックを提供する。
シングルホップとマルチホップの質問応答ベンチマークの実験では、‘texttt{SE-Search-3B} は強力なベースラインを上回り、10.8$の絶対的な改善と3.8%の相対的な利益を Search-R1.\footnote{We will make the code and model weights within accept.
※
関連論文リスト
- Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests [28.788329427390455]
本稿では,DeepResearchから収集した14.44Mの検索要求(3.97Mセッション)に基づいて,エージェント検索の大規模ログ解析を行う。
まず,各セッションの90%以上が少なくとも10ステップ,89%が1分以内である。
エージェント検索は、繰り返しを意識した早期停止、意図適応型検索予算、明示的なクロスステップコンテキストトラッキングの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2026-01-24T22:42:43Z) - Agentic-R: Learning to Retrieve for Agentic Search [82.43426728778418]
エージェント検索に適した新しい検索学習フレームワークを提案する。
単一ターン検索拡張生成(RAG)用に設計された検索器とは違って,局所的なクエリ・パスの関連性とグローバルな回答の正当性を両立することを提案する。
我々のレトリバーは、我々のものとよばれ、異なる検索エージェント間で強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-17T02:59:54Z) - LEAPS: An LLM-Empowered Adaptive Plugin for Taobao AI Search [17.074638179635613]
我々は,従来の検索システムを"Broaden-and-Empower"パラダイムでシームレスにアップグレードするLEAPS(LLM-Empowered Adaptive for Taobao AI Search)を提案する。
新たな3段階のトレーニング戦略 – 逆データ拡張,後知識による微調整,多様性を考慮した強化学習 – を採用して,適応的および補完的なクエリの組み合わせを生成する。
2025年8月以降、Taobao AI Searchに完全にデプロイされている。
論文 参考訳(メタデータ) (2026-01-09T03:41:27Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning [23.104182075898297]
Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
論文 参考訳(メタデータ) (2025-10-11T04:23:30Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。