論文の概要: The Amazing Agent Race: Strong Tool Users, Weak Navigators
- arxiv url: http://arxiv.org/abs/2604.10261v1
- Date: Sat, 11 Apr 2026 15:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.928672
- Title: The Amazing Agent Race: Strong Tool Users, Weak Navigators
- Title(参考訳): 素晴らしいエージェントレース:強力なツールユーザー、弱いナビゲーター
- Authors: Zae Myung Kim, Dongseok Lee, Jaehyung Kim, Vipul Raheja, Dongyeop Kang,
- Abstract要約: LLMエージェントの既存のツール使用ベンチマークは圧倒的に線形である。
The Amazing Agent Race (AAR) は、有向非巡回グラフパズル(または「レッグ」)とフォークマージツールチェーンを特徴付けるベンチマークである。
シーケンシャル(800脚)とコンポジション(600DAG脚)の2つの変種にまたがる1,400のインスタンスをリリースする。
- 参考スコア(独自算出の注目度): 27.24330141815882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing tool-use benchmarks for LLM agents are overwhelmingly linear: our analysis of six benchmarks shows 55 to 100% of instances are simple chains of 2 to 5 steps. We introduce The Amazing Agent Race (AAR), a benchmark featuring directed acyclic graph (DAG) puzzles (or "legs") with fork-merge tool chains. We release 1,400 instances across two variants: sequential (800 legs) and compositional (600 DAG legs). Agents must navigate Wikipedia, execute multi-step tool chains, and aggregate results into a verifiable answer. Legs are procedurally generated from Wikipedia seeds across four difficulty levels with live-API validation. Three complementary metrics (finish-line accuracy, pit-stop visit rate, and roadblock completion rate) separately diagnose navigation, tool-use, and arithmetic failures. Evaluating three agent frameworks on 1,400 legs, the best achieves only 37.2% accuracy. Navigation errors dominate (27 to 52% of trials) while tool-use errors remain below 17%, and agent architecture matters as much as model scale (Claude Code matches Codex CLI at 37% with 6x fewer tokens). The compositional structure of AAR reveals that agents fail not at calling tools but at navigating to the right pages, a blind spot invisible to linear benchmarks. The project page can be accessed at: https://minnesotanlp.github.io/the-amazing-agent-race
- Abstract(参考訳): LLMエージェントの既存のツール使用ベンチマークは圧倒的に線形であり、6つのベンチマークから55から100%のインスタンスが2から5ステップの単純な連鎖であることが分かる。
The Amazing Agent Race (AAR) は、有向非巡回グラフ(DAG)パズル(または「レッグ」)とフォークマージツールチェーンを特徴とするベンチマークである。
シーケンシャル(800脚)とコンポジション(600DAG脚)の2つの変種にまたがって1,400のインスタンスをリリースします。
エージェントはWikipediaをナビゲートし、多段階のツールチェーンを実行し、結果を検証可能な回答に集約する必要がある。
足はウィキペディアのシードから4つの難易度で手続き的に生成され、ライブAPI検証を行う。
3つの補完的指標(フィニッシュライン精度、ピットストップ訪問率、ロードブロック完了率)は、ナビゲーション、ツール使用、算術的失敗を別々に診断する。
1,400本の脚で3つのエージェントフレームワークを評価すると、最高は37.2%の精度しか達成できない。
ナビゲーションエラーが支配的(トライアルの27~52%)であるが、ツール使用エラーは17%以下であり、エージェントアーキテクチャはモデルスケールと同じくらい重要である(Claude CodeはCodex CLIを37%、トークンは6倍少ない)。
AARの構成構造は、エージェントがツールを呼び出すのに失敗するだけでなく、正しいページをナビゲートする時に、線形ベンチマークでは見えない盲点があることを明らかにする。
プロジェクトページへのアクセスは以下の通りである。
関連論文リスト
- ClawBench: Can AI Agents Complete Everyday Online Tasks? [50.958690494341106]
ClawBenchは153のシンプルなタスクの評価フレームワークで、人々が人生や仕事で定期的に達成する必要がある。
ClawBenchは本番Webサイトで動作し、実世界のWebインタラクションの完全な複雑さ、動的な性質、課題を保存する。
軽量なインターセプション層は、最終的なリクエストのみをキャプチャしてブロックし、現実世界の副作用なしに安全な評価を保証する。
論文 参考訳(メタデータ) (2026-04-09T17:57:13Z) - ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces [17.202580606345666]
生産性タスクを自動化するために、大規模言語モデル(LLM)エージェントがますますデプロイされる。
既存のベンチマークは単純化された環境に依存しており、現実的なマルチサービス環境をキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-06T21:09:06Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence [0.0]
ナビゲーションと検索が根本的に異なる問題であるため,エージェントの動作は不十分である。
コードによるグラフベースの構造ナビゲーション - 依存性グラフを公開するModel Context Protocolサーバ - は、隠れ依存性タスクに対する99.4%のタスク補完を達成している。
論文 参考訳(メタデータ) (2026-02-23T16:58:37Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration [13.925896302382043]
大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-06-24T10:39:07Z) - InSTA: Towards Internet-Scale Training For Agents [49.763517682308766]
我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。
Qwen 3 1.7Bをベースとしたエージェントをトレーニングし、WebエージェントとしてフロンティアLLMと競合すると同時に、より小型で高速なエージェントをトレーニングする。
我々のトップエージェントは56.9%の成功率に達し、データ収集ポリシーのQwen 3B、Llama 4 Maverickの235倍、Gemini 2.5 Flashのパフォーマンスの94.7%を上回りました。
論文 参考訳(メタデータ) (2025-02-10T18:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。