論文の概要: AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.16883v1
- Date: Thu, 18 Dec 2025 18:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.228647
- Title: AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning
- Title(参考訳): AdaSearch: 強化学習による大規模言語モデルにおけるパラメトリック知識と探索のバランス
- Authors: Tzu-Han Lin, Wei-Lin Chen, Chen-An Li, Hung-yi Lee, Yun-Nung Chen, Yu Meng,
- Abstract要約: 検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。
本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。
AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
- 参考スコア(独自算出の注目度): 61.974530499621274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equipping large language models (LLMs) with search engines via reinforcement learning (RL) has emerged as an effective approach for building search agents. However, overreliance on search introduces unnecessary cost and risks exposure to noisy or malicious content, while relying solely on parametric knowledge risks hallucination. The central challenge is to develop agents that adaptively balance parametric knowledge with external search, invoking search only when necessary. Prior work mitigates search overuse by shaping rewards around the number of tool calls. However, these penalties require substantial reward engineering, provide ambiguous credit assignment, and can be exploited by agents that superficially reduce calls. Moreover, evaluating performance solely through call counts conflates necessary and unnecessary search, obscuring the measurement of true adaptive behavior. To address these limitations, we first quantify the self-knowledge awareness of existing search agents via an F1-based decision metric, revealing that methods such as Search-R1 often overlook readily available parametric knowledge. Motivated by these findings, we propose AdaSearch, a simple two-stage, outcome-driven RL framework that disentangles problem solving from the decision of whether to invoke search, and makes this decision process explicit and interpretable. This transparency is crucial for high-stakes domains such as finance and medical question answering, yet is largely neglected by prior approaches. Experiments across multiple model families and sizes demonstrate that AdaSearch substantially improves knowledge-boundary awareness, reduces unnecessary search calls, preserves strong task performance, and offers more transparent, interpretable decision behaviors.
- Abstract(参考訳): 大規模言語モデル (LLM) を強化学習 (RL) を介して検索エンジンと組み合わせることが, 検索エンジン構築の効果的なアプローチとして浮上している。
しかし、検索に対する過度な依存は、ノイズや悪意のあるコンテンツに不必要なコストやリスクをさらけ出し、パラメトリックな知識リスクの幻覚にのみ依存する。
中心的な課題は、パラメトリック知識を外部検索と適応的にバランスさせ、必要なときにのみ検索を呼び出すエージェントを開発することである。
以前の作業では、ツールコールの数に関する報酬を形作ることで、検索の過剰使用を軽減している。
しかし、これらの罰則は相当な報酬エンジニアリングを必要とし、曖昧な信用割り当てを提供し、電話を表面的に減らすエージェントによって悪用される。
さらに、コールカウントのみによる性能評価は、真の適応行動の測定を無視し、必要で不要な探索を行う。
これらの制約に対処するために、我々はまずF1に基づく意思決定指標を用いて既存の検索エージェントの自己認識を定量化し、検索-R1のような手法が容易に利用できるパラメトリック知識を見落としていることを明らかにする。
これらの結果に触発されたAdaSearchは、単純な2段階の結果駆動型RLフレームワークであり、探索を起動するかどうかの判断から問題解決を混乱させ、この決定プロセスを明確かつ解釈可能にする。
この透明性は、ファイナンスや医療質問応答といった高額な領域にとって極めて重要であるが、従来のアプローチでは無視されている。
複数のモデルファミリとサイズにわたる実験により、AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを減らし、タスクパフォーマンスを保ち、透明性と解釈可能な意思決定行動を提供することが示された。
関連論文リスト
- To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - Over-Searching in Search-Augmented Large Language Models [22.821710825732563]
検索強化された大言語モデル(LLM)は、外部検索を統合することで知識集約的なタスクに優れる。
過剰探索は、無関係な文脈を取り入れることで、計算の非効率性と幻覚をもたらす。
以上の結果から, (i) 解答可能な問合せに対する解答精度は向上するが, 解答不可能な問合せに対する棄却を損なうこと, (ii) 過剰探索が複雑な推論モデルや深層研究システムにおいてより顕著であること, (iii) 否定的証拠の存在が棄却を改善していることが示唆された。
論文 参考訳(メタデータ) (2026-01-09T03:24:46Z) - SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - LightSearcher: Efficient DeepSearch via Experiential Memory [23.338677838845]
本稿では,DeepSearchパラダイムの精度と効率を両立させる効率的な強化学習フレームワークを提案する。
4つのマルチホップQAベンチマークの実験は、LightSearcherがSOTAベースラインのReSearchに匹敵する精度を維持していることを示している。
論文 参考訳(メタデータ) (2025-12-07T04:29:52Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents [9.862334188345791]
大規模言語モデル(LLM)に基づく検索エージェントは,複雑なタスクを解く際,顕著な能力を示した。
LLMベースの検索エージェントのための高効率推論フレームワークであるSearchAgent-Xを紹介する。
SearchAgent-Xは、vLLMやHNSWベースの検索のような最先端システムよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-17T16:07:01Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。