論文の概要: Decision Evidence Maturity Model for Agentic AI: A Property-Level Method Specification
- arxiv url: http://arxiv.org/abs/2605.04093v1
- Date: Wed, 29 Apr 2026 09:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.426028
- Title: Decision Evidence Maturity Model for Agentic AI: A Property-Level Method Specification
- Title(参考訳): エージェントAIのための決定エビデンス成熟度モデル:プロパティレベルメソッド仕様
- Authors: Oleg Solozobov,
- Abstract要約: エージェントAIシステムは、実行テレメトリを通じて大規模な意思決定証拠を生成するが、プロパティレベルの再構築は失敗することが多い。
このパターンをコンテナ誤認(container fallacy)と呼んでいます。
本稿では,エージェント決定のための特性レベル再構成法であるDecision Evidence Maturity Model (DEMM)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI systems produce decision evidence at scale through execution telemetry, but property-level reconstruction often fails when an external party asks a specific governance question about a specific decision: the assembled evidence is insufficient to answer it. We name this pattern the container fallacy: the automatic equation of evidence-container presence with audit sufficiency. This paper specifies the Decision Evidence Maturity Model (DEMM), a property-level reconstructability method for agentic decisions. DEMM classifies evidence sufficiency into four executable categories plus a protocol-level "conflicting" category and aggregates per-property verdicts into a five-level capability rubric anchored to the established maturity-model lineage. The open-source Decision Trace Reconstructor ships ten executable adapter-fallback classes spanning vendor SDKs, protocol traces, public-postmortem prose, and generic JSONL records. A reproducible feasibility exercise runs the protocol on 140 synthetic scenarios plus three public incidents; the resulting completeness range (53.6% to 100%) is implementation behaviour, not external validation.
- Abstract(参考訳): エージェントAIシステムは、実行テレメトリを通じて大規模な意思決定エビデンスを生成するが、外部の当事者が特定の決定について特定のガバナンス質問をしたとき、プロパティレベルの再構築は失敗することが多い。
このパターンをコンテナ誤認(container fallacy)と呼んでいます。
本稿では,エージェント決定のための特性レベル再構成法であるDecision Evidence Maturity Model (DEMM)を提案する。
DEMMは、エビデンスを4つの実行可能なカテゴリに分類し、プロトコルレベルの「コンプリケーション」カテゴリと、確立された成熟度モデル系統に固定された5レベル機能ルーリックにパープロパリティの評定を集約する。
オープンソースのDecision Trace Reconstructorは、ベンダSDK、プロトコルトレース、公開後文、JSONLレコードにまたがる10の実行可能なアダプタフォールバッククラスを出荷する。
再現可能な実行可能演習は、140の合成シナリオと3つの公開インシデントでプロトコルを実行し、結果として完全な範囲(53.6%から100%)は、外部の検証ではなく実装の振る舞いである。
関連論文リスト
- IMPACT-HOI: Supervisory Control for Onset-Anchored Partial HOI Event Construction [72.51952455865155]
我々は,エゴセントリックなプロシージャビデオに注釈を付けるための混合開始型フレームワークIMPACT-HOIを提案する。
IMPACT-HOIは、このタスクを部分的に指定され、オンセットされたイベント状態の漸進的な解決として捉えている。
9人の参加者によるユーザスタディでは、手動のアノテーションアクションが13.5%減少し、46.67%のイベントマッチレート、確認されたフィールド違反がゼロである。
論文 参考訳(メタデータ) (2026-05-03T01:37:40Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Governed Auditable Decisioning Under Uncertainty: Synthesis and Agentic Extension [0.0]
自動決定システムが失敗すると、組織はしばしば、公式に準拠したガバナンスインフラストラクチャが、何が起きたのか、なぜ起きたのかを再構築できないことに気付く。
本稿では,運用管理エビデンス・フレームワークを統合連鎖に合成し,その伝達可能性を4つの意思決定システムアーキテクチャ間で解析的に評価する。
論文 参考訳(メタデータ) (2026-04-21T05:45:04Z) - Decision Trace Schema for Governance Evidence in Real-Time Risk Systems [0.0]
単一のロギングフォーマットが、決定の達成方法に関するガバナンス関連の完全な記録をキャプチャすることはない。
DESは10の必要な根レベルフィールドを定義し、結合されたエビデンス戦略を導入している。
DESは4つのレイヤを同時にカバーする唯一の仕様である。
論文 参考訳(メタデータ) (2026-04-10T13:06:38Z) - Compliance-by-Construction Argument Graphs: Using Generative AI to Produce Evidence-Linked Formal Arguments for Certification-Grade Accountability [0.0]
本稿では、生成AI(GenAI)と構造化された形式的引数表現を統合したコンプライアンス・バイ・コンストラクションアーキテクチャを提案する。
アーキテクチャは、各AI支援ステップを、検証済みの証拠によって支持され、明示的な推論制約に対して検証されなければならないクレームとして扱う。
この分析は、GenAIが議論構築を加速させながら、疑わしい主張が決定記録に入るのを防ぐことができることを示唆している。
論文 参考訳(メタデータ) (2026-04-05T12:55:16Z) - Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。