論文の概要: Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents
- arxiv url: http://arxiv.org/abs/2505.12065v1
- Date: Sat, 17 May 2025 16:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.018405
- Title: Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents
- Title(参考訳): 大規模言語モデルに基づく検索エージェントのデミスティファイションと効率向上
- Authors: Tiannuo Yang, Zebin Yao, Bowen Jin, Lixiao Cui, Yusen Li, Gang Wang, Xiaoguang Liu,
- Abstract要約: 大規模言語モデル(LLM)に基づく検索エージェントは,複雑なタスクを解く際,顕著な能力を示した。
LLMベースの検索エージェントのための高効率推論フレームワークであるSearchAgent-Xを紹介する。
SearchAgent-Xは、vLLMやHNSWベースの検索のような最先端システムよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 9.862334188345791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based search agents have shown remarkable capabilities in solving complex tasks by dynamically decomposing problems and addressing them through interleaved reasoning and retrieval. However, this interleaved paradigm introduces substantial efficiency bottlenecks. First, we observe that both highly accurate and overly approximate retrieval methods degrade system efficiency: exact search incurs significant retrieval overhead, while coarse retrieval requires additional reasoning steps during generation. Second, we identify inefficiencies in system design, including improper scheduling and frequent retrieval stalls, which lead to cascading latency -- where even minor delays in retrieval amplify end-to-end inference time. To address these challenges, we introduce SearchAgent-X, a high-efficiency inference framework for LLM-based search agents. SearchAgent-X leverages high-recall approximate retrieval and incorporates two key techniques: priority-aware scheduling and non-stall retrieval. Extensive experiments demonstrate that SearchAgent-X consistently outperforms state-of-the-art systems such as vLLM and HNSW-based retrieval across diverse tasks, achieving up to 3.4$\times$ higher throughput and 5$\times$ lower latency, without compromising generation quality. SearchAgent-X is available at https://github.com/tiannuo-yang/SearchAgent-X.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく探索エージェントは,問題を動的に分解し,解法と解法によって対処することで,複雑なタスクを解く際,顕著な能力を示した。
しかし、このインターリーブされたパラダイムは、かなりの効率のボトルネックをもたらす。
まず,高精度かつ過度に近似した検索手法がシステム効率を低下させるのを観察する。
第二に、不適切なスケジューリングや頻繁な検索停止など、システム設計の非効率性を識別し、カスケード遅延を引き起こします。
これらの課題に対処するために,LLMベースの検索エージェントのための高効率推論フレームワークであるSearchAgent-Xを紹介する。
SearchAgent-Xは、ハイリコール近似検索を活用し、優先度対応スケジューリングと非安定検索の2つの主要なテクニックを取り入れている。
大規模な実験により、SearchAgent-Xは、様々なタスクにわたるvLLMやHNSWベースの検索において、生成品質を損なうことなく、最大3.4$\times$高スループット、5$\times$低レイテンシを実現している。
SearchAgent-Xはhttps://github.com/tiannuo-yang/SearchAgent-Xで入手できる。
関連論文リスト
- Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent [23.669599662214686]
HyperAgentは、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムである。
我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。
問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。
論文 参考訳(メタデータ) (2024-02-05T07:07:30Z) - PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement [59.6260680005195]
本稿では,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
新しいパラダイムに従って、我々は、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
論文 参考訳(メタデータ) (2023-09-20T08:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。