論文の概要: AEMA: Verifiable Evaluation Framework for Trustworthy and Controlled Agentic LLM Systems
- arxiv url: http://arxiv.org/abs/2601.11903v1
- Date: Sat, 17 Jan 2026 04:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.365314
- Title: AEMA: Verifiable Evaluation Framework for Trustworthy and Controlled Agentic LLM Systems
- Title(参考訳): AEMA:信頼できるエージェントLLMシステムのための検証可能な評価フレームワーク
- Authors: YenTing Lee, Keerthi Koneru, Zahra Moslemi, Sheethal Kumar, Ramesh Radhakrishnan,
- Abstract要約: AEMAは、人間の監視下で異種エージェントの多段階評価を計画し、実行し、集約する。
1つのLCM-as-a-Judgeと比較すると、AEMAはより安定性、人間のアライメント、そして説明責任のある自動化をサポートするトレース可能なレコードを実現している。
- 参考スコア(独自算出の注目度): 0.28055179094637683
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating large language model (LLM)-based multi-agent systems remains a critical challenge, as these systems must exhibit reliable coordination, transparent decision-making, and verifiable performance across evolving tasks. Existing evaluation approaches often limit themselves to single-response scoring or narrow benchmarks, which lack stability, extensibility, and automation when deployed in enterprise settings at multi-agent scale. We present AEMA (Adaptive Evaluation Multi-Agent), a process-aware and auditable framework that plans, executes, and aggregates multi-step evaluations across heterogeneous agentic workflows under human oversight. Compared to a single LLM-as-a-Judge, AEMA achieves greater stability, human alignment, and traceable records that support accountable automation. Our results on enterprise-style agent workflows simulated using realistic business scenarios demonstrate that AEMA provides a transparent and reproducible pathway toward responsible evaluation of LLM-based multi-agent systems. Keywords Agentic AI, Multi-Agent Systems, Trustworthy AI, Verifiable Evaluation, Human Oversight
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくマルチエージェントシステムの評価は,信頼性の高いコーディネーション,透過的な意思決定,進化するタスク間での性能検証を行なわなければならないため,依然として重要な課題である。
既存の評価アプローチでは、マルチエージェントスケールでエンタープライズ環境にデプロイする際の安定性、拡張性、自動化が欠如している、シングルレスポンススコアや狭いベンチマークに制限されることが多い。
AEMA(Adaptive Evaluation Multi-Agent)はプロセス認識・監査可能なフレームワークで,ヒューマン監視下で異質なエージェントワークフローをまたいだ多段階評価を計画,実行,集約する。
1つのLCM-as-a-Judgeと比較すると、AEMAはより安定性、人間のアライメント、そして説明責任のある自動化をサポートするトレース可能なレコードを実現している。
現実的なビジネスシナリオをシミュレートしたエンタープライズスタイルのエージェントワークフローの結果、AEMAはLLMベースのマルチエージェントシステムの評価に責任を負うための透過的で再現可能な経路を提供することを示した。
キーワード エージェントAI、マルチエージェントシステム、信頼できるAI、検証可能な評価、人間の監視
関連論文リスト
- Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems [0.0]
エージェントAIの最近の進歩は、スタンドアロンの大規模言語モデルから統合システムへと焦点を移している。
LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。
我々はこのフレームワークを、従来のメトリクスによる振る舞いの偏りを示す、代表的なAutonomous CloudOpsユースケースで検証する。
論文 参考訳(メタデータ) (2025-12-14T18:17:40Z) - InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。
InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文 参考訳(メタデータ) (2025-09-26T15:44:09Z) - Taming Uncertainty via Automation: Observing, Analyzing, and Optimizing Agentic AI Systems [1.9751175705897066]
大規模言語モデル (LLMs) はエージェントシステムにますます展開され、対話型のLLMエージェントは複雑で、メモリ、ツール、動的プランニングを用いて適応的に実行される。
従来のソフトウェアオブザーバビリティと運用プラクティスは、これらの課題に対処するには不十分です。
本稿ではエージェントAIシステムの動作を観察し、分析し、最適化し、自動化するための総合的なフレームワークであるAgentOpsを紹介する。
論文 参考訳(メタデータ) (2025-07-15T12:54:43Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。