論文の概要: Verify-Gated Completion as Admission Control in a Governed Multi-Agent Runtime: A Bounded Architecture Case Study
- arxiv url: http://arxiv.org/abs/2605.17998v2
- Date: Thu, 21 May 2026 02:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.88111
- Title: Verify-Gated Completion as Admission Control in a Governed Multi-Agent Runtime: A Bounded Architecture Case Study
- Title(参考訳): Governed Multi-Agent Runtimeにおけるアドミッション制御としての検証付き完了:境界アーキテクチャケーススタディ
- Authors: Hai-Duong Nguyen, Xuan-The Tran,
- Abstract要約: 制御されたマルチエージェントランタイムの入出力制御パターンとして,検証ゲート補完について検討する。
観測条件下では,読み取り専用検証ゲートとパケット化入力記録が検査可能で,フェールクロースされた。
- 参考スコア(独自算出の注目度): 0.6875312133832079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As multi-agent systems move from short interactions to tool-using workflows with specialized roles and persistent state, completion becomes a runtime-control problem rather than a purely generative one. This preprint studies verify-gated completion as an admission-control pattern for governed multi-agent runtimes: agents may propose completion, but a read-only verifier decides whether the claim is admitted. Ambiguous or weakly evidenced cases resolve fail-closed, while packetized state and event traces preserve an audit path. We examine one bounded reference implementation and ask what the released evidence can support about auditable, verify-gated completion. In the released verify-completed slice, the known-outcome invoked-event verify success share was 1,791/1,800 = 99.5%. This is an accounting measure over invoked verification events, not a task-completion, production-reliability, or benchmark-success rate. Task-level verify coverage is not computable; 1,762/1,801 rows came from one high-volume reporting cluster; and only 17 events were production-classified. A shadow Policy/Governance Verifier evaluation showed 1,526/1,548 = 98.58% rule agreement, 0/1,526 false-success among safe-to-proceed predictions, and blocked precision of 2/518 = 0.39%, so it remains advisory. The evidence supports a narrow conclusion: under observed conditions, a read-only verify gate plus packetized admission records made completion decisions inspectable and fail-closed. Claims about deployed operation, safety guarantees, outcome gains, task-level coverage, recovery effectiveness, or external validity remain outside scope.
- Abstract(参考訳): マルチエージェントシステムは、ショートインタラクションから、特定の役割と永続的な状態を持つツール使用ワークフローへと移行するにつれて、完了は、純粋に生成するワークフローではなく、実行時制御の問題となる。
エージェントは完了を提案できるが、読み取り専用検証器はクレームが認められるかどうかを判断する。
曖昧または弱い証拠のあるケースはフェイルクローズを解決し、パケット化された状態とイベントトレースは監査パスを保持する。
そこで我々は,有界参照実装を1つ検討し,その検証可能な検証済み完了について,その証拠が何をサポートするのかを問う。
リリースされた検証済みスライスでは、既知のアウトカムのinvoked-event検証成功率は1,791/1,800 = 99.5%であった。
これは、実行された検証イベントに対する説明手段であり、タスク補完、プロダクション信頼性、ベンチマーク成功率ではない。
タスクレベルの検証カバレッジは計算不可能で、1,762/1,801行は1つの高ボリュームのレポートクラスタから来ている。
シャドーポリシー/ガバナンス検証では、1,526/1,548 = 98.58%のルール合意、0/1,526の偽証明、ブロック精度は2/518 = 0.39%であった。
観察された条件下では、読み取り専用検証ゲートとパケット化された入場記録が検査可能で、フェールクロースされた。
デプロイされた運用、安全性保証、成果の獲得、タスクレベルのカバレッジ、リカバリの有効性、あるいは外部の妥当性に関する主張は、範囲外にある。
関連論文リスト
- ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - Can Agent Benchmarks Support Their Scores? Evidence-Supported Bounds for Interactive-Agent Evaluation [8.049844623361725]
インタラクティブエージェントベンチマークは、結果チェックを通じてエージェントの実行をバイナリ結果にマッピングする。
これらのチェックは、表面レベル信号に依存するか、エージェントの実際のアクションパスをキャプチャできない。
既存のベンチマークに対して、結果エビデンスレポート層を導入します。
論文 参考訳(メタデータ) (2026-05-11T12:20:15Z) - A Benchmark for Strategic Auditee Gaming Under Continuous Compliance Monitoring [1.253312107729806]
継続的デプロイ後のコンプライアンス監査は、戦略的なゲームのクラスを作成します。
我々は,時間的方針にコミットする監査者と適応監査人との間に,$T$ラウンドのStackelbergゲームとして継続的監査を形式化する。
論文 参考訳(メタデータ) (2026-05-07T14:28:34Z) - Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems [0.0]
本稿では、その故障モードを測定するための決定論的ベンチマークであるPartial Evidence Benchを紹介する。
このベンチマークでは、デューディリジェンス、コンプライアンス監査、セキュリティインシデント対応の3つのシナリオファミリが提供されている。
答えの正しさ、完全性意識、ギャップレポートの品質、安全でない完全性行動の4つの面に沿ってシステムを評価する。
論文 参考訳(メタデータ) (2026-05-06T19:01:29Z) - Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling [0.0]
言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
論文 参考訳(メタデータ) (2026-02-27T23:42:37Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Evidence-Bound Autonomous Research (EviBound): A Governance Framework for Eliminating False Claims [0.609170287691728]
EviBoundは、二重ガバナンスゲートを通じて偽のクレームを排除するエビデンスベースの実行フレームワークである。
事前実行承認ゲートは、コードが実行される前に受け入れ基準スキーマを検証する。
実行後検証ゲートは、MLflow APIクエリを通じてアーティファクトを検証する。
論文 参考訳(メタデータ) (2025-10-28T17:47:13Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。