論文の概要: Log analysis is necessary for credible evaluation of AI agents
- arxiv url: http://arxiv.org/abs/2605.08545v1
- Date: Fri, 08 May 2026 23:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.722678
- Title: Log analysis is necessary for credible evaluation of AI agents
- Title(参考訳): ログ分析はAIエージェントの信頼性評価に必要である
- Authors: Peter Kirgis, Sayash Kapoor, Stephan Rabanser, Nitya Nadgir, Cozmin Ududec, Magda Dubois, JJ Allaire, Conrad Stosz, Marius Hobbhahn, Jacob Steinhardt, Arvind Narayanan,
- Abstract要約: エージェントベンチマークは通常、パスまたはフェールという最終結果のみを報告します。
これは3つの点で評価の信頼性を脅かす。
これらの妥当性の脅威を克服するにはログ分析が必要であると我々は主張する。
- 参考スコア(独自算出の注目度): 31.236953223202875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent benchmarks typically report only final outcomes: pass or fail. This threatens evaluation credibility in three ways. First, scores may be inflated or deflated by shortcuts and benchmark artifacts, misrepresenting capability. Second, benchmark performance may fail to predict real-world utility due to scaffold limitations and recurring failure modes. Finally, capability scores may conceal dangerous or catastrophic actions taken by the agent. We argue that log analysis -- the systematic tracking and analysis of the inputs, execution, and outputs of an AI agent -- is necessary to overcome these validity threats and promote credible agent evaluation. In this paper, we (1) present a taxonomy of threats to credible evaluation documented through log analysis, and (2) develop a set of guiding principles for log analysis. We illustrate these principles on tau-Bench Airline, revealing that pass^5 performance was under-elicited by nearly 50% and surfacing deployment failure modes invisible to outcome metrics. We conclude with pragmatic recommendations to increase uptake of log analysis, directed at diverse stakeholders including benchmark creators, model developers, independent evaluators, and deployers.
- Abstract(参考訳): エージェントベンチマークは通常、パスまたはフェールという最終結果のみを報告します。
これは3つの点で評価の信頼性を脅かす。
まず、スコアを膨らませたり、ショートカットやベンチマークアーティファクトによってデフレーションしたりして、誤った能力を示すことができる。
第2に、足場制限と繰り返し発生する障害モードのために、ベンチマークのパフォーマンスが現実のユーティリティを予測できない可能性がある。
最後に、能力スコアは、エージェントが取る危険な、または破滅的な行動を隠蔽する可能性がある。
我々は、これらの妥当性の脅威を克服し、信頼できるエージェント評価を促進するためには、ログ分析(AIエージェントの入力、実行、出力の体系的な追跡と分析)が必要であると論じる。
本稿では,(1)ログ分析によって記録された信頼性評価に対する脅威の分類を示し,(2)ログ解析の指針を策定する。
これらの原則をtau-Bench Airlineで説明し、pass^5のパフォーマンスが50%近く低下し、結果のメトリクスに見えないデプロイメント障害モードが表面化していることを明らかにした。
ベンチマーク作成者、モデル開発者、独立評価者、デプロイ者など、さまざまな利害関係者を対象にした、ログ分析の取り込みを促進するための実践的な推奨で締めくくります。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - vCause: Efficient and Verifiable Causality Analysis for Cloud-based Endpoint Auditing [18.070867353750472]
vCauseは、クラウドベースのエンドポイント監査のための効率的で検証可能な因果解析システムである。
エンドポイントの計算オーバーヘッドは1%に過ぎず、クラウドでは3.36%に留まる。
論文 参考訳(メタデータ) (2026-03-16T12:54:00Z) - From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting [19.0993436440595]
FinReasoningは、中国のリサーチレポート生成を3段階に分解するベンチマークだ。
評価結果に基づいて、FinReasoningはほとんどのモデルが理解と実行のギャップを示すことを示した。
論文 参考訳(メタデータ) (2026-02-25T13:44:58Z) - The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis [24.51410516475904]
The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。
我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。
我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:47:10Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。