Fugu-MT 論文翻訳(概要): Beyond Task Success: An Evidence-Synthesis Framework for Evaluating, Governing, and Orchestrating Agentic AI

論文の概要: Beyond Task Success: An Evidence-Synthesis Framework for Evaluating, Governing, and Orchestrating Agentic AI

arxiv url: http://arxiv.org/abs/2604.19818v1
Date: Sat, 18 Apr 2026 20:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.558495
Title: Beyond Task Success: An Evidence-Synthesis Framework for Evaluating, Governing, and Orchestrating Agentic AI
Title（参考訳）: タスク成功を超えて:エージェントAIの評価、統治、オーケストレーションのためのエビデンス合成フレームワーク
Authors: Christopher Koch, Joshua Andreas Wellbrock,
Abstract要約: 本稿では,手動符号化コーパスにおける有界なエビデンス合成に寄与する。本稿では,(1)評価,ガバナンス,オーケストレーション,保証にまたがる4層フレームワーク,(2)可観測性,決定性,タイムライン,検証性に基づくODTA実行時配置テスト,(3)状態変更動作のための最小アクション検証バンドル,の3つの関連アーティファクトを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic AI systems plan, use tools, maintain state, and act across multi-step workflows with external effects, meaning trustworthy deployment can no longer be judged by task completion alone. The current literature remains fragmented across benchmark-centered evaluation, standards-based governance, orchestration architectures, and runtime assurance mechanisms. This paper contributes a bounded evidence synthesis across a manually coded corpus of twenty-four recent sources. The core finding is a governance-to-action closure gap: evaluation tells us whether outcomes were good, governance defines what should be allowed, but neither identifies where obligations bind to concrete actions or how compliance can later be proven. To close that gap, the paper introduces three linked artifacts: (1) a four-layer framework spanning evaluation, governance, orchestration, and assurance; (2) an ODTA runtime-placement test based on observability, decidability, timeliness, and attestability; and (3) a minimum action-evidence bundle for state-changing actions. Across sources, evaluation papers identify safety, robustness, and trajectory-level measurement as open gaps; governance frameworks define obligations but omit execution-time control logic; orchestration research positions the control plane as the locus of policy mediation, identity, and telemetry; runtime-governance work shows path-dependent behavior cannot be governed through prompts or static permissions alone; and action-safety studies show text alignment does not reliably transfer to tool actions. A worked enterprise procurement-agent scenario illustrates how these artifacts consolidate existing evidence without introducing new experimental data.
Abstract（参考訳）: エージェントAIシステムは計画し、ツールを使用し、状態を維持し、外部効果のあるマルチステップワークフローをまたいで行動する。現在の文献は、ベンチマーク中心の評価、標準ベースのガバナンス、オーケストレーションアーキテクチャ、ランタイム保証メカニズムで断片化されている。本稿では,手動符号化コーパスにおける有界なエビデンス合成に寄与する。評価は、成果が良いかどうかを教えてくれ、ガバナンスは、何が許容されるべきかを定義します。このギャップを埋めるために,1) 評価,ガバナンス,オーケストレーション,保証にまたがる4層フレームワーク,2) 可観測性,決定性,タイムライン,検証性に基づくODTAランタイム配置テスト,3) 状態変更アクションのための最小アクションエビデンスバンドルを紹介した。ガバナンスフレームワークは義務を定義するが、実行時の制御ロジックを省略する; オーケストレーション研究は、コントロールプレーンをポリシーの仲介、アイデンティティ、テレメトリの要点として位置付ける; ランタイムガバナンスワークは、プロンプトや静的なパーミッションだけでパスに依存した振る舞いを管理できない; アクションセーフティスタディは、テキストアライメントがツールアクションに確実に移行していないことを示している。作業中の企業調達-エージェントシナリオでは、これらのアーティファクトが、新しい実験データを導入することなく、既存のエビデンスを統合する方法を示している。

関連論文リスト

Auditable Agents [10.007755929469814]
LLMエージェントはツールを呼び、データベースをクエリし、タスクをデリゲートし、外部の副作用を引き起こす。エージェントシステムが世界で活動できるようになると、もはや有害なアクションが防げるかどうかという問題ではない。我々は、説明責任(コンプライアンスを判断し、責任を割り当てる能力)、監査可能性(説明責任を可能にするシステム特性)、監査(信頼できる証拠から振る舞いを再構築するプロセス)を区別する。
論文参考訳（メタデータ） (2026-04-07T06:25:49Z)
A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance [0.22940141855172028]
本稿では,Large Language Models (LLM) を用いたエージェントAIシステムの保証フレームワークを提案する。実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
論文参考訳（メタデータ） (2026-03-18T10:23:48Z)
Cryptographic Runtime Governance for Autonomous AI Systems: The Aegis Architecture for Verifiable Policy Enforcement [0.0]
本稿では,自律型AIシステムのためのランタイムガバナンスアーキテクチャであるAegisについて述べる。エージスは政策と法的制約を諮問の原則よりも実行条件として扱う。
論文参考訳（メタデータ） (2026-03-15T04:04:57Z)
A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance [0.0]
本稿では,無人航空機システムにおける安全評価,認証活動,規制コンプライアンスを支援する検索ベースアシスタントの設計と検証について述べる。提案手法は、権威的な規制ソースのみに依存する制御されたテキストベースのアーキテクチャを使用する。システムレベルの制御は、生成モデルの一般的な障害モードに対処する。
論文参考訳（メタデータ） (2026-02-16T08:13:53Z)
DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。 DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文参考訳（メタデータ） (2026-02-11T07:45:14Z)
Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文参考訳（メタデータ） (2026-01-23T17:17:32Z)
OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。 OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文参考訳（メタデータ） (2026-01-04T15:48:51Z)
Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文参考訳（メタデータ） (2025-12-19T06:12:43Z)
Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。 EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文参考訳（メタデータ） (2025-10-13T11:11:46Z)
Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文参考訳（メタデータ） (2025-04-23T16:54:35Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。