論文の概要: LightSearcher: Efficient DeepSearch via Experiential Memory
- arxiv url: http://arxiv.org/abs/2512.06653v3
- Date: Wed, 10 Dec 2025 07:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 13:10:24.467169
- Title: LightSearcher: Efficient DeepSearch via Experiential Memory
- Title(参考訳): LightSearcher: 経験的メモリによる効率的なDeepSearch
- Authors: Hengzhi Lan, Yue Yu, Li Qian, Li Peng, Jie Wu, Wei Liu, Jian Luan, Ting Bai,
- Abstract要約: 本稿では,DeepSearchパラダイムの精度と効率を両立させる効率的な強化学習フレームワークを提案する。
4つのマルチホップQAベンチマークの実験は、LightSearcherがSOTAベースラインのReSearchに匹敵する精度を維持していることを示している。
- 参考スコア(独自算出の注目度): 23.338677838845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DeepSearch paradigms have become a core enabler for deep reasoning models, allowing them to invoke external search tools to access up-to-date, domain-specific knowledge beyond parametric boundaries, thereby enhancing the depth and factual reliability of reasoning. Building upon this foundation, recent advances in reinforcement learning (RL) have further empowered models to autonomously and strategically control search tool usage, optimizing when and how to query external knowledge sources. Yet, these RL-driven DeepSearch systems often reveal a see-saw trade-off between accuracy and efficiency-frequent tool invocations can improve factual correctness but lead to unnecessary computational overhead and diminished efficiency. To address this challenge, we propose LightSearcher, an efficient RL framework that incorporates textual experiential memory by learning contrastive reasoning trajectories to generate interpretable summaries of successful reasoning patterns. In addition, it employs an adaptive reward shaping mechanism that penalizes redundant tool calls only in correct-answer scenarios. This design effectively balances the inherent accuracy-efficiency trade-off in DeepSearch paradigms. Experiments on four multi-hop QA benchmarks show that LightSearcher maintains accuracy comparable to SOTA baseline ReSearch, while reducing search tool invocations by 39.6%, inference time by 48.6%, and token consumption by 21.2%, demonstrating its superior efficiency.
- Abstract(参考訳): DeepSearchパラダイムは、深層推論モデルのコアイネーブラーとなり、外部検索ツールを呼び出すことで、パラメトリック境界を越えて最新のドメイン固有の知識にアクセスし、推論の深さと事実の信頼性を高めることができる。
この基盤の上に、強化学習(RL)の最近の進歩により、検索ツールの使用を自律的かつ戦略的に制御し、外部知識ソースをいつ、どのようにクエリするかを最適化するモデルがさらに強化された。
しかし、これらのRL駆動のDeepSearchシステムは、正確さと効率の低いツール呼び出しの間の見事なトレードオフをしばしば示し、事実の正確性を改善するが、不要な計算オーバーヘッドと効率の低下につながる。
この課題に対処するために,比較推論の軌跡を学習してテキスト体験メモリを組み込んだ効率的なRLフレームワークLightSearcherを提案する。
さらに、アダプティブな報酬形成機構を使用して、冗長なツールコールを正しく答えるシナリオでのみペナルティ化する。
この設計は、DeepSearchパラダイムの固有の精度効率トレードオフを効果的にバランスさせる。
4つのマルチホップQAベンチマークの実験では、LightSearcherはSOTAベースラインのReSearchに匹敵する精度を維持し、検索ツールの呼び出しは39.6%、推論時間は48.6%、トークンの消費は21.2%減少し、優れた効率を示している。
関連論文リスト
- WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search [53.27052683356095]
我々はモンテカルロ木探索を直接RLVRトレーニングに統合するフレームワークであるDeepSearchを紹介する。
推論時にのみツリー検索に依存する既存のメソッドとは対照的に、DeepSearchは構造化された検索をトレーニングループに埋め込む。
コントリビューションには,(1)検索ツリー全体にわたって有望なノードを優先するグローバルフロンティア選択戦略,(2)監督のための確実なパスを識別するエントロピーベースのガイダンスによる選択,(3)効率的なソリューションキャッシングによる適応的リプレイバッファトレーニングなどが含まれている。
論文 参考訳(メタデータ) (2025-09-29T20:00:29Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - DeepRAG: Thinking to Retrieve Step by Step for Large Language Models [92.87532210660456]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。
クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。
実験の結果,DeepRAGは検索効率を向上し,回答精度を26.4%向上させ,検索強化推論の有効性を示した。
論文 参考訳(メタデータ) (2025-02-03T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。