論文の概要: The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
- arxiv url: http://arxiv.org/abs/2604.11978v1
- Date: Mon, 13 Apr 2026 19:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.080606
- Title: The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
- Title(参考訳): 長距離タスクミラージュ : エージェントシステムが壊れた場所と理由を診断する
- Authors: Xinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak,
- Abstract要約: HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
- 参考スコア(独自算出の注目度): 69.91172974854422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents perform strongly on short- and mid-horizon tasks, but often break down on long-horizon tasks that require extended, interdependent action sequences. Despite rapid progress in agentic systems, these long-horizon failures remain poorly characterized, hindering principled diagnosis and comparison across domains. To address this gap, we introduce HORIZON, an initial cross-domain diagnostic benchmark for systematically constructing tasks and analyzing long-horizon failure behaviors in LLM-based agents. Using HORIZON, we evaluate state-of-the-art (SOTA) agents from multiple model families (GPT-5 variants and Claude models), collecting 3100+ trajectories across four representative agentic domains to study horizon-dependent degradation patterns. We further propose a trajectory-grounded LLM-as-a-Judge pipeline for scalable and reproducible failure attribution, and validate it with human annotation on trajectories, achieving strong agreement (inter-annotator κ=0.61; human-judge κ=0.84). Our findings offer an initial methodological step toward systematic, cross-domain analysis of long-horizon agent failures and offer practical guidance for building more reliable long-horizon agents. We release our project website at \href{https://xwang2775.github.io/horizon-leaderboard/}{HORIZON Leaderboard} and welcome contributions from the community.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、短距離および中距離のタスクで強く機能するが、拡張された相互依存のアクションシーケンスを必要とする長い水平タスクを分解することが多い。
エージェントシステムの急激な進歩にもかかわらず、これらの長い水平障害は、ドメイン間での診断と比較の原則を妨げている。
このギャップに対処するために,本研究では,タスクを体系的に構築し,LLMエージェントにおける長時間の障害挙動を解析するための,最初のクロスドメイン診断ベンチマークであるHoriZONを紹介する。
HoriZONを用いて,複数のモデルファミリー(GPT-5変異体とClaudeモデル)からSOTAエージェントを評価し,4つの代表的なエージェントドメインにまたがる3100以上のトラジェクトリを収集し,水平方向依存的な劣化パターンについて検討した。
さらに,拡張性および再現性のある障害帰属のためのトラジェクトリググラウンドのLLM-as-a-Judgeパイプラインを提案し,トラジェクトリに対する人間のアノテーションで検証し,強い合意(インタノテータκ=0.61, Human-judge κ=0.84)を達成した。
本研究は, 長期エージェント障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供するとともに, より信頼性の高い長期エージェント構築のための実践的ガイダンスを提供する。
私たちはプロジェクトのWebサイトを,‘href{https://xwang2775.github.io/Horizon- Leaderboard/}{HORIZON Leaderboard’でリリースしています。
関連論文リスト
- AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems [0.0]
本稿では,デプロイされたマルチエージェントAIシステムにおけるポストホック障害診断のための軽量因果トレースフレームワークであるAgentTraceを紹介する。
AgentTraceは、実行ログから因果グラフを再構築し、エラー発生から後方にトレースし、解釈可能な構造信号と位置信号を使って候補根本原因をランク付けする。
この結果から,因果トレースはエージェントシステムの信頼性と信頼性を向上させるための実践的な基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-16T00:46:44Z) - MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning [42.779100789823055]
マルチスケール自動回帰GEnerationに基づくオフラインRL法であるMAGEを提案する。
MAGEは条件付きマルチスケールオートエンコーダを組み込んで階層的軌道表現を学習する。
実験の結果,MAGEはマルチスケールの軌道モデリングと条件付き誘導をうまく統合できることがわかった。
論文 参考訳(メタデータ) (2026-02-27T07:56:33Z) - From Flat Logs to Causal Graphs: Hierarchical Failure Attribution for LLM-based Multi-Agent Systems [13.588125015284257]
本稿では,カオス軌跡を階層型因果グラフに変換する新しいフレームワークCHIEFを提案する。
Who&Whenベンチマークの実験によると、CHIEFはエージェントレベルの精度とステップレベルの精度の両方で8つの強い、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-27T06:08:42Z) - Alignment in Time: Peak-Aware Orchestration for Long-Horizon Agentic Systems [2.5424331328233207]
APEMO(Affect-aware Peak-End Modulation for Orchestration)をランタイムスケジューリング層として導入する。
APEMOは行動プロキシを通じて軌道不安定を検知し、ピークモーメントや終了といった重要な部分での修復を目標とする。
その結果,時間的制御問題としてアライメントを再構築し,長軸エージェントシステムの開発にレジリエントな工学的経路を提供する。
論文 参考訳(メタデータ) (2026-02-20T00:16:07Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文 参考訳(メタデータ) (2026-01-15T13:52:04Z) - Multi-Agent Craftax: Benchmarking Open-Ended Multi-Agent Reinforcement Learning at the Hyperscale [53.08403177911567]
textitCraftax-MAは、人気のあるオープンエンドRL環境であるCraftaxの拡張である。
textitCraftax-Coopは異質なエージェント、トレーディング、さらに多くのメカニクスを導入し、エージェント間の複雑な協力を必要としている。
論文 参考訳(メタデータ) (2025-11-07T01:09:36Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。