論文の概要: Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2512.12791v1
- Date: Sun, 14 Dec 2025 18:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.44146
- Title: Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems
- Title(参考訳): Task Completionを超えて:エージェントAIシステムを評価するためのアセスメントフレームワーク
- Authors: Sreemaee Akshathala, Bassam Adnan, Mahisha Ramesh, Karthik Vaidhyanathan, Basil Muhammed, Kannan Parthasarathy,
- Abstract要約: エージェントAIの最近の進歩は、スタンドアロンのLarge Language Models(LLM)から、LLMとツール、メモリ、その他のエージェントを組み合わせて複雑なタスクを実行する統合システムへと焦点を移している。
LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。
我々はこのフレームワークを、従来のメトリクスによる行動偏差を実験で示す、代表的なAutonomous CloudOpsユースケースで検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in agentic AI have shifted the focus from standalone Large Language Models (LLMs) to integrated systems that combine LLMs with tools, memory, and other agents to perform complex tasks. These multi-agent architectures enable coordinated reasoning, planning, and execution across diverse domains, allowing agents to collaboratively automate complex workflows. Despite these advances, evaluation and assessment of LLM agents and the multi-agent systems they constitute remain a fundamental challenge. Although various approaches have been proposed in the software engineering literature for evaluating conventional software components, existing methods for AI-based systems often overlook the non-deterministic nature of models. This non-determinism introduces behavioral uncertainty during execution, yet existing evaluations rely on binary task completion metrics that fail to capture it. Evaluating agentic systems therefore requires examining additional dimensions, including the agent ability to invoke tools, ingest and retrieve memory, collaborate with other agents, and interact effectively with its environment. We propose an end-to-end Agent Assessment Framework with four evaluation pillars encompassing LLMs, Memory, Tools, and Environment. We validate the framework on a representative Autonomous CloudOps use case, where experiments reveal behavioral deviations overlooked by conventional metrics, demonstrating its effectiveness in capturing runtime uncertainties.
- Abstract(参考訳): エージェントAIの最近の進歩は、スタンドアロンのLarge Language Models(LLM)から、LLMとツール、メモリ、その他のエージェントを組み合わせて複雑なタスクを実行する統合システムへと焦点を移している。
これらのマルチエージェントアーキテクチャにより、さまざまなドメインにわたる協調推論、計画、実行が可能になり、エージェントは複雑なワークフローを協調的に自動化することができる。
これらの進歩にもかかわらず、LLMエージェントとそれらを構成するマルチエージェントシステムの評価と評価は、依然として根本的な課題である。
ソフトウェア工学の文献において、従来のソフトウェアコンポーネントを評価するための様々なアプローチが提案されているが、AIベースのシステムのための既存の手法は、しばしばモデルの非決定論的性質を見落としている。
この非決定論は実行中に振る舞いの不確実性をもたらすが、既存の評価はそれをキャプチャできないバイナリタスク補完メトリクスに依存している。
そのため、エージェントシステムを評価するには、ツールの実行、メモリの取り込みと取得、他のエージェントとのコラボレーション、環境との効果的な相互作用など、追加の次元を調べる必要がある。
LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。
我々は、従来のメトリクスで見過ごされる振る舞いの偏りを実験によって明らかにし、実行時の不確実性を捕捉するその効果を示す、代表的なAutonomous CloudOpsユースケースでフレームワークを検証する。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。
我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。
コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文 参考訳(メタデータ) (2025-10-13T04:07:01Z) - Agentic Systems in Radiology: Design, Applications, Evaluation, and Challenges [13.53016942028838]
大型言語モデル(LLM)は、自然言語を使って情報を統合し、指示に従い、推論と計画の形式を実行することができる。
マルチモーダルなデータストリームと複数のシステムにまたがるオーケストレーションによって、ラジオロジーはコンテキストに適応し、繰り返しながら複雑なタスクを自動化するエージェントの恩恵を受けるのに一意に適している。
本稿では, LLMエージェントシステムの設計を概観し, 主要なアプリケーションを強調し, 計画とツール使用の評価方法について議論し, エラーカスケード, ツール使用効率, 健康IT統合といった課題の概要を述べる。
論文 参考訳(メタデータ) (2025-10-10T13:56:27Z) - Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [8.086360127362815]
大規模言語モデル(LLM)ベースのコーディングエージェントは、コンパイラ、デバッガ、バージョン管理システムなどのツールを自律的に計画し、実行し、操作する。
従来のコード生成とは異なり、これらのエージェントは目標を分解し、多段階プロセスをコーディネートし、フィードバックに基づいて適応し、ソフトウェア開発のプラクティスを再構築する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds [12.464941027105306]
AI for IT Operations(AIOps)は、障害のローカライゼーションや根本原因分析といった複雑な運用タスクを自動化することを目的としており、人間の作業量を削減し、顧客への影響を最小限にする。
大規模言語モデル(LLM)とAIエージェントの最近の進歩は、エンドツーエンドとマルチタスクの自動化を可能にすることで、AIOpsに革命をもたらしている。
マイクロサービスクラウド環境をデプロイし、障害を注入し、ワークロードを生成し、テレメトリデータをエクスポートするフレームワークであるAIOPSLABを紹介します。
論文 参考訳(メタデータ) (2025-01-12T04:17:39Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。