論文の概要: Over-Searching in Search-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05503v1
- Date: Fri, 09 Jan 2026 03:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.828154
- Title: Over-Searching in Search-Augmented Large Language Models
- Title(参考訳): 探索強化大言語モデルにおける過剰探索
- Authors: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra,
- Abstract要約: 検索強化された大言語モデル(LLM)は、外部検索を統合することで知識集約的なタスクに優れる。
過剰探索は、無関係な文脈を取り入れることで、計算の非効率性と幻覚をもたらす。
以上の結果から, (i) 解答可能な問合せに対する解答精度は向上するが, 解答不可能な問合せに対する棄却を損なうこと, (ii) 過剰探索が複雑な推論モデルや深層研究システムにおいてより顕著であること, (iii) 否定的証拠の存在が棄却を改善していることが示唆された。
- 参考スコア(独自算出の注目度): 22.821710825732563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.
- Abstract(参考訳): 検索強化された大言語モデル(LLM)は、外部検索を統合することで知識集約的なタスクに優れる。
しかし、多くの場合、過剰検索 -- 応答品質を向上しない場合でも、必要以上に検索ツールを起動し、無関係なコンテキストを取り入れることで、計算の非効率性と幻覚を引き起こす。
本研究では,クエリタイプ,モデルカテゴリ,検索条件,マルチターン会話など,複数次元にわたる過剰検索の体系的評価を行う。
私たちの発見は以下のとおりです。
一 検索は、一般に、解答可能なクエリの解答精度を向上するが、解答不能クエリの棄却を損なう。
(ii)過剰探索は、複雑な推論モデルや深層研究システムにおいてより顕著であり、ノイズ検索によって悪化し、マルチターン会話において交互に化合物が出現する。
三 否定的証拠の存在が棄権を改善するため、回収された証拠の構成が不可欠である。
過剰探索の定量化のために,探索拡張LDMの性能・コストトレードオフを計測する評価指標であるTokens Per correctness (TPC)を導入する。
最後に,検索と検索の両レベルでの緩和手法について検討し,OverSearchQAをリリースし,効率的な検索拡張 LLM の継続的な研究を促進する。
関連論文リスト
- SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning [61.974530499621274]
検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。
本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。
AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
論文 参考訳(メタデータ) (2025-12-18T18:50:01Z) - Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning [23.104182075898297]
Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
論文 参考訳(メタデータ) (2025-10-11T04:23:30Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。
クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。
その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T10:56:34Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。