論文の概要: UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
- arxiv url: http://arxiv.org/abs/2509.21766v1
- Date: Fri, 26 Sep 2025 02:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.122759
- Title: UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios
- Title(参考訳): UltraHorizon:超長期シナリオにおけるベンチマークエージェント機能
- Authors: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen,
- Abstract要約: textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
- 参考スコア(独自算出の注目度): 63.67884284105684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents have recently achieved remarkable progress across diverse domains, yet most evaluations focus on short-horizon, fully observable tasks. In contrast, many critical real-world tasks, such as large-scale software development, commercial investment, and scientific discovery, unfold in long-horizon and partially observable scenarios where success hinges on sustained reasoning, planning, memory management, and tool use. Existing benchmarks rarely capture these long-horizon challenges, leaving a gap in systematic evaluation. To bridge this gap, we introduce \textbf{UltraHorizon} a novel benchmark that measures the foundational capabilities essential for complex real-world challenges. We use exploration as a unifying task across three distinct environments to validate these core competencies. Agents are designed in long-horizon discovery tasks where they must iteratively uncover hidden rules through sustained reasoning, planning, memory and tools management, and interaction with environments. Under the heaviest scale setting, trajectories average \textbf{200k+} tokens and \textbf{400+} tool calls, whereas in standard configurations they still exceed \textbf{35k} tokens and involve more than \textbf{60} tool calls on average. Our extensive experiments reveal that LLM-agents consistently underperform in these settings, whereas human participants achieve higher scores, underscoring a persistent gap in agents' long-horizon abilities. We also observe that simple scaling fails in our task. To better illustrate the failure of agents, we conduct an in-depth analysis of collected trajectories. We identify eight types of errors and attribute them to two primary causes: in-context locking and functional fundamental capability gaps. \href{https://github.com/StarDewXXX/UltraHorizon}{Our code will be available here.}
- Abstract(参考訳): 自律エージェントは最近、様々な領域で顕著な進歩を遂げているが、ほとんどの評価は短期的かつ完全に観察可能なタスクに焦点を当てている。
対照的に、大規模なソフトウェア開発、商業的投資、科学的発見のような多くの重要な現実世界のタスクは、成功が持続的な推論、計画、メモリ管理、ツールの使用に影響を及ぼす長期的かつ部分的に観察可能なシナリオに展開する。
既存のベンチマークはこれらの長期的課題をほとんど捉えておらず、体系的な評価のギャップを残している。
このギャップを埋めるために、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである「textbf{UltraHorizon」を導入する。
私たちは、これらのコア能力を検証するために、3つの異なる環境にまたがる統一的なタスクとして探索を使用します。
エージェントは長期にわたる発見タスクで設計されており、持続的推論、計画、メモリとツールの管理、環境との相互作用を通じて隠されたルールを反復的に発見する必要がある。
最も重いスケール設定の下では、トラジェクトリは平均的な \textbf{200k+} のトークンと \textbf{400+} のツールコールを消費するが、標準設定では、依然として \textbf{35k} のトークンを超え、平均的な \textbf{60} のツールコールを消費する。
広範囲にわたる実験の結果,LSMエージェントはこれらの設定において常に不利な成績を示し,一方でヒトの参加者は高いスコアを達成し,エージェントの長期的能力の欠如を暗示している。
また、単純なスケーリングがタスクで失敗することも観察します。
エージェントの故障をよりよく説明するために,収集された軌道の詳細な分析を行う。
8種類のエラーを識別し,2つの主な原因として,コンテキスト内ロックと機能的基本能力ギャップを挙げる。
https://github.com/StarDewXXX/UltraHorizon}{Ourコードはここで入手できる。
※
関連論文リスト
- BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair [28.052062258597225]
現在の大規模言語モデル(M)ベースのエージェントは,探索幅の制限や推論深度によるバランスの達成に苦慮している。
拡張プランナー-実行エージェントペアを中心に構築されたBrowseMasterフレームワークを提案する。
英語と中国語のテストでは、BrowseMasterはオープンなベンチマークとプロプライエタリなベースラインを一貫して上回り、BrowseComp-enで3点、BrowseComp-zhで46.5点を記録している。
論文 参考訳(メタデータ) (2025-08-12T17:56:25Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents [40.37993572657772]
本稿では,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。
我々の手法は、最も簡単なタスクの55%から最も難しいタスクの0%まで、最先端のモデルの成功率で任意の難易度にスケール可能であることを実証する。
論文 参考訳(メタデータ) (2025-05-30T19:23:51Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。