論文の概要: SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
- arxiv url: http://arxiv.org/abs/2605.29796v1
- Date: Thu, 28 May 2026 11:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.209342
- Title: SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
- Title(参考訳): SAAS:エージェント検索における過剰探索緩和のための自己認識強化学習
- Authors: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su,
- Abstract要約: 自己認識の欠如は、厳密なtextbfover-search を引き起こし、かなりの推論遅延と禁忌な計算コストを引き起こす。
本稿では,探索行動を正確に制御し,精度を損なうことなく,動的自己認識を実現するための新しいRLフレームワークであるSAASを提案する。
- 参考スコア(独自算出の注目度): 38.532946868233736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.
- Abstract(参考訳): エージェントサーチにより、LLMは反復推論と外部探索によって複雑なマルチホップ問題を解くことができる。
エージェントは自身の知識の境界を認識しず、内部の知識が十分であるときに検索を盲目的にトリガーし、適切な証拠が収集された場合でも検索を終了させません。
自己認識の欠如は、深刻な \textbf{over-search} を引き起こし、かなりの推論遅延と禁忌な計算コストを引き起こす。
そこで本稿では,探索動作を正確に制御し,精度を損なうことなく,動的自己認識を実現するための新しいRLフレームワークであるSAASを提案する。
SAASは3つの重要なコンポーネントを導入している。
一 検索不能及び検索可能なロールアウトを対比することにより、進化政策の下で検索境界を識別する検索境界モデリング機構
二 この境界認識を軌跡レベルの罰則に変換し、不要で冗長な探索を抑える境界認識報酬モジュール
三 逐次カリキュラムを活用して、検索正規化よりも推論を優先し、報酬のハッキングを避ける段階最適化戦略。
大規模な実験により、SAASは精度を維持しながら、過剰探索を大幅に削減することが示された。
私たちのコードはhttps://github.com/XMUDeepLIT/SAASで匿名でリリースされています。
関連論文リスト
- AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning [52.305422887002656]
本稿では,自己生成中間回答を用いて各探索ステップを評価する強化学習フレームワークを提案する。
自己回答機構により、AutoSearchは最小限の検索深度を特定し、効率的な検索を促進する。
実験の結果、AutoSearchは検索品質を維持しながら過剰検索を軽減し、精度と効率のトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2026-04-19T09:05:48Z) - To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning [61.974530499621274]
検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。
本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。
AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
論文 参考訳(メタデータ) (2025-12-18T18:50:01Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。