論文の概要: Lost in the Maze: Overcoming Context Limitations in Long-Horizon Agentic Search
- arxiv url: http://arxiv.org/abs/2510.18939v1
- Date: Tue, 21 Oct 2025 17:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.338083
- Title: Lost in the Maze: Overcoming Context Limitations in Long-Horizon Agentic Search
- Title(参考訳): 迷路に迷う:長軸エージェントサーチにおける文脈制限の克服
- Authors: Howard Yen, Ashwin Paranjape, Mengzhou Xia, Thejas Venkatesh, Jack Hessel, Danqi Chen, Yuhao Zhang,
- Abstract要約: ロングホライズンエージェントサーチでは、長い軌道上でウェブを探索し、多くの情報源で情報を合成する必要がある。
一般的なエージェント検索フレームワークは、コンテキスト制限のため、長い軌道にスケールするのに苦労していることを示す。
本稿では,検索を個別の検索・閲覧ツールに分離するシンプルなフレームワークであるSLIMを紹介し,その軌道を定期的に要約する。
- 参考スコア(独自算出の注目度): 38.148306710480426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon agentic search requires iteratively exploring the web over long trajectories and synthesizing information across many sources, and is the foundation for enabling powerful applications like deep research systems. In this work, we show that popular agentic search frameworks struggle to scale to long trajectories primarily due to context limitations-they accumulate long, noisy content, hit context window and tool budgets, or stop early. Then, we introduce SLIM (Simple Lightweight Information Management), a simple framework that separates retrieval into distinct search and browse tools, and periodically summarizes the trajectory, keeping context concise while enabling longer, more focused searches. On long-horizon tasks, SLIM achieves comparable performance at substantially lower cost and with far fewer tool calls than strong open-source baselines across multiple base models. Specifically, with o3 as the base model, SLIM achieves 56% on BrowseComp and 31% on HLE, outperforming all open-source frameworks by 8 and 4 absolute points, respectively, while incurring 4-6x fewer tool calls. Finally, we release an automated fine-grained trajectory analysis pipeline and error taxonomy for characterizing long-horizon agentic search frameworks; SLIM exhibits fewer hallucinations than prior systems. We hope our analysis framework and simple tool design inform future long-horizon agents.
- Abstract(参考訳): ロングホライズンエージェントサーチは、長い軌道上でウェブを反復的に探索し、多くの情報源で情報を合成することを必要とし、ディープリサーチシステムのような強力なアプリケーションを実現する基盤となっている。
本研究では,一般的なエージェント検索フレームワークが,主にコンテキスト制約の蓄積,コンテキストウィンドウとツール予算のヒット,あるいは早期の停止などによって,長いトラジェクトリへのスケールに苦慮していることを示す。
次に,検索を個別の検索・閲覧ツールに分離するシンプルなフレームワークであるSLIM(Simple Lightweight Information Management)を導入する。
長期タスクでは、SLIMは複数のベースモデルにまたがる強力なオープンソースベースラインよりもはるかに少ないコストで同等のパフォーマンスを実現する。
具体的には、o3をベースモデルとして、SLIMはBrowseCompで56%、HLEで31%を達成し、オープンソースフレームワークをそれぞれ8と4の絶対点で上回り、ツールコールが4から6倍少ない。
最後に,長距離エージェント検索フレームワークを特徴付けるための細粒度自動解析パイプラインと誤り分類を行い,SLIMは従来のシステムよりも幻覚を少なくする。
分析フレームワークとシンプルなツール設計が将来の長期エージェントに通知してくれることを願っています。
関連論文リスト
- UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文 参考訳(メタデータ) (2025-08-29T09:58:27Z) - Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL [22.8456317506762]
ASearcherは、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトである。
ASearcher-Web-QwQは、xBenchで42.1、GAIAで52.8のAvg@4スコアを獲得し、既存のオープンソース32Bエージェントを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:36:57Z) - LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。
我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文 参考訳(メタデータ) (2025-06-05T16:27:49Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。