論文の概要: AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.20530v1
- Date: Tue, 19 May 2026 22:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.394002
- Title: AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
- Title(参考訳): AgentAtlas: LLMエージェントのアウトカムリーダーボードを超えて
- Authors: Parsa Mazaheri, Kasra Mazaheri,
- Abstract要約: 本研究では、6つの行動軸に対して15個のエージェントベンチマークをベンチマーク・カバレッジ・監査マッピングする。
方法論を実証するために、両方のプロンプトモードの下で、小さな固定8モデルセットを実行しました。
明示的なラベルメニューの取り外しは、すべてのモデルの軌道精度を14-40ppから0.54-0.62フロアに下げる。
- 参考スコア(独自算出の注目度): 0.025718125188898048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents now act on codebases, browsers, operating systems, calendars, files, and tool ecosystems, but the benchmarks used to evaluate them are fragmented: each emphasizes a different unit of measurement (final task success, tool-call validity, repeated-pass consistency, trajectory safety, or attack robustness). A line of 2024-2025 work has converged on the diagnosis that a single accuracy column is no longer the right unit of comparison for deployable agents. AgentAtlas extends this line of work with four components: (i) a six-state control-decision taxonomy (Act / Ask / Refuse / Stop / Confirm / Recover); (ii) a nine-category trajectory-failure taxonomy with two orthogonal hierarchical labels (primary_error_source, impact); (iii) a taxonomy-aware vs. taxonomy-blind methodology that measures how much of a model's apparent capability comes from the supervision in the prompt; and (iv) a benchmark-coverage audit mapping fifteen agent benchmarks against six behavioral axes. To demonstrate the methodology we run a small fixed eight-model set (1,342 generated items, four frontier closed and four open-weight) under both prompt modes. Removing the explicit label menu drops every model's trajectory accuracy by 14-40 pp to a tight 0.54-0.62 floor regardless of family, and no single model wins on all three of control accuracy, trajectory diagnosis, and tool-context utility retention. We treat the synthetic run as a measurement-protocol demonstration, not a benchmark release.
- Abstract(参考訳): 大規模な言語モデルエージェントはコードベース、ブラウザ、オペレーティングシステム、カレンダ、ファイル、ツールエコシステムに作用するが、評価に使用されるベンチマークは断片的である。
2024-2025の一連の研究は、単一の精度列がもはやデプロイ可能なエージェントの比較の正しい単位ではないという診断に集約されている。
AgentAtlasはこのラインを4つのコンポーネントで拡張します。
一 六州管理決定分類(法 / Ask / Refuse / Stop / Confirm / Recover)
2)2つの直交階層ラベル(primary_error_source, impact)を有する9つのカテゴリーのトラジェクトリ欠陥分類
三 モデルの明らかな能力のどれ程が、指示の監督から生じるかを計測する分類学意識対分類学盲検法
(iv)6つの行動軸に対して15個のエージェントベンチマークをベンチマークカバレッジ監査マッピングする。
方法論を実証するために、両方のプロンプトモードで小さな固定8モデルセット(1,342個の生成項目、4つのフロンティアクローズド、4つのオープンウェイト)を実行する。
明示的なラベルメニューを取り外すと、すべてのモデルの軌道精度は14-40ppで家族によらず厳密な0.04-0.62フロアに低下し、制御精度、軌道診断、ツールコンテキストのユーティリティ保持の3つすべてで1つのモデルが勝利することはない。
我々は、この合成ランをベンチマークリリースではなく、測定プロトコールのデモとして扱う。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - MIRROR: A Hierarchical Benchmark for Metacognitive Calibration in Large Language Models [0.0]
MIRRORは、大規模言語モデルがより優れた意思決定に自己知識を使用できるかどうかを評価するベンチマークである。
約25万の評価インスタンスに対して,8つの実験室から16のモデルを評価した。
論文 参考訳(メタデータ) (2026-04-15T08:41:12Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。