Fugu-MT 論文翻訳(概要): A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines

論文の概要: A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines

arxiv url: http://arxiv.org/abs/2602.22442v1
Date: Wed, 25 Feb 2026 22:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.428603
Title: A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines
Title（参考訳）: AutoMLパイプラインにおけるAIエージェントの決定と結果を評価するフレームワーク
Authors: Gaoyuan Du, Amit Ahlawat, Xiaoyang Liu, Jing Wu,
Abstract要約: エージェントベースのAutoMLシステムは、データ処理、モデル選択、評価にまたがる複雑な多段階決定を行うために、大きな言語モデルに依存している。我々の研究は、結果に基づく観点からエージェントオートMLシステムの評価を、エージェント決定を監査するシステムに再編成する。
参考スコア（独自算出の注目度）: 10.389238449467136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agent-based AutoML systems rely on large language models to make complex, multi-stage decisions across data processing, model selection, and evaluation. However, existing evaluation practices remain outcome-centric, focusing primarily on final task performance. Through a review of prior work, we find that none of the surveyed agentic AutoML systems report structured, decision-level evaluation metrics intended for post-hoc assessment of intermediate decision quality. To address this limitation, we propose an Evaluation Agent (EA) that performs decision-centric assessment of AutoML agents without interfering with their execution. The EA is designed as an observer that evaluates intermediate decisions along four dimensions: decision validity, reasoning consistency, model quality risks beyond accuracy, and counterfactual decision impact. Across four proof-of-concept experiments, we demonstrate that the EA can (i) detect faulty decisions with an F1 score of 0.919, (ii) identify reasoning inconsistencies independent of final outcomes, and (iii) attribute downstream performance changes to agent decisions, revealing impacts ranging from -4.9\% to +8.3\% in final metrics. These results illustrate how decision-centric evaluation exposes failure modes that are invisible to outcome-only metrics. Our work reframes the evaluation of agentic AutoML systems from an outcome-based perspective to one that audits agent decisions, offering a foundation for reliable, interpretable, and governable autonomous ML systems.
Abstract（参考訳）: エージェントベースのAutoMLシステムは、データ処理、モデル選択、評価にまたがる複雑な多段階決定を行うために、大きな言語モデルに依存している。しかし、既存の評価プラクティスは結果中心であり、主に最終タスクのパフォーマンスに焦点を当てています。先行研究のレビューを通じて、調査対象のエージェントオートMLシステムでは、中間的意思決定品質のポストホック評価を目的とした、構造化された意思決定レベル評価指標が存在しないことが判明した。この制限に対処するために,オートMLエージェントの判断中心の評価を行う評価エージェント(EA)を提案する。 EAは、4つの側面に沿って中間決定を評価するオブザーバーとして設計されています。 4つの概念実証実験で、EAが可能であることを実証する。 (i)F1スコア0.919で故障判定を検出する。二最終結果によらない理性不一致を識別し、 (iii) 下流のパフォーマンスの変化がエージェントの決定に影響を与え、最終指標の-4.9\%から+8.3\%までの影響が明らかになる。これらの結果は、意思決定中心の評価が、結果のみのメトリクスには見えない障害モードを公開する方法を示している。我々の研究は、結果に基づく視点からエージェントオートMLシステムの評価を、エージェント決定を監査し、信頼性があり、解釈可能で、管理可能な自律MLシステムの基盤を提供するものに変更しました。

関連論文リスト

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving [26.866150191410032]
AutoDriDMは,3次元にわたる6,650の質問 – Object, Scene, Decision – を備えた,意思決定中心の,プログレッシブなベンチマークです。我々は、自律運転における知覚と判断能力の境界を明確化するために、主流の視覚言語モデルを評価する。モデル推論プロセスの説明可能性分析を行い、論理的推論エラーなどの重要な障害モードを特定する。
論文参考訳（メタデータ） (2026-01-21T06:29:09Z)
How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文参考訳（メタデータ） (2025-10-10T19:04:28Z)
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。 DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。 DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文参考訳（メタデータ） (2025-03-11T15:29:55Z)
Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文参考訳（メタデータ） (2024-11-13T10:42:11Z)
"A Good Bot Always Knows Its Limitations": Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence [5.167803438665586]
本稿では,アルゴリズムによる意思決定における能力向上に寄与するいくつかの要因について,一意に考察したFactized Machine Self-confidence(FaMSeC)フレームワークを提案する。 FaMSeCでは、自己自信指標はマルコフ決定過程の解法に埋め込まれた「確率問題解決統計」によって導出される。マルコフ決定プロセスエージェントの詳細な説明と例を含み、さまざまなタスクのコンテキストにおいて、結果評価と問題解決の質要因がどのように見つかるかを示す。
論文参考訳（メタデータ） (2024-07-29T01:22:04Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文参考訳（メタデータ） (2023-10-28T05:59:43Z)
Rational Decision-Making Agent with Internalized Utility Judgment [88.01612847081677]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。 ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文参考訳（メタデータ） (2023-08-24T03:11:45Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。