論文の概要: AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.20530v2
- Date: Tue, 26 May 2026 15:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.860939
- Title: AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
- Title(参考訳): AgentAtlas: LLMエージェントのアウトカムリーダーボードを超えて
- Authors: Parsa Mazaheri, Kasra Mazaheri,
- Abstract要約: AgentAtlasは、診断語彙および監査プロトコルとしてのエージェント評価を再設定する。
i)6状態制御-決定分類(Act / Ask / Refuse / Stop / Confirm / Recover)、(ii)一次誤差源と下流衝撃を持つ軌道障害語彙、(iv)8つのモデルで評価された合成1,342-itemに関する実証的プロトコル研究。
- 参考スコア(独自算出の注目度): 0.025718125188898048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents now act on codebases, browsers, operating systems, calendars, files, and tool ecosystems, but their evaluations often collapse behavior into final task success. AgentAtlas reframes agent evaluation as a diagnostic vocabulary and audit protocol for separating outcome success from control-decision quality and trajectory quality. The paper contributes: (i) a six-state control-decision taxonomy (Act / Ask / Refuse / Stop / Confirm / Recover); (ii) a trajectory-failure vocabulary with primary error source and downstream impact; (iii) a 0/1/2 benchmark-coverage audit over fifteen agent benchmarks; and (iv) an illustrative protocol study on a synthetic 1,342-item set evaluated with eight models under taxonomy-aware and taxonomy-blind prompt formats. The synthetic demonstration is not a public benchmark release and should not be read as a definitive model comparison. Instead, it illustrates two measurement risks: mapped label agreement can change substantially when the explicit label menu is removed, and axis choice can change apparent rankings. AgentAtlas is intended to help benchmark designers state what behavior they cover, and to help evaluators diagnose failures that outcome-only leaderboards hide.
- Abstract(参考訳): 大規模な言語モデルエージェントは、コードベース、ブラウザ、オペレーティングシステム、カレンダ、ファイル、ツールエコシステムに作用するが、その評価は最終的なタスク成功に振る舞うことが多い。
AgentAtlas reframes agent evaluation as a diagnosis vocabulary and audit protocol for distinguish outcome success from control-decision quality and trajectory quality。
論文は以下のとおりである。
一 六州管理決定分類(法 / Ask / Refuse / Stop / Confirm / Recover)
二 一次誤差源及び下流衝撃を有する軌道障害語彙
3) 15のエージェントベンチマークに対する0/1/2ベンチマークカバレッジ監査及び
(4)分類基準と分類基準に基づく8つのモデルで評価した合成1,342項目集合に関する実証的プロトコルの研究。
合成デモは公開ベンチマークリリースではなく、決定的なモデル比較として読むべきではない。
マップされたラベルの合意は、明示的なラベルメニューが削除されたときに大きく変化し、軸の選択は明らかにランクを変更することができる。
AgentAtlasは、デザイナがカバーする動作のベンチマークを支援し、結果のみのリーダボードが隠している障害の診断を支援する。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - MIRROR: A Hierarchical Benchmark for Metacognitive Calibration in Large Language Models [0.0]
MIRRORは、大規模言語モデルがより優れた意思決定に自己知識を使用できるかどうかを評価するベンチマークである。
約25万の評価インスタンスに対して,8つの実験室から16のモデルを評価した。
論文 参考訳(メタデータ) (2026-04-15T08:41:12Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。