論文の概要: Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice
- arxiv url: http://arxiv.org/abs/2603.07191v2
- Date: Tue, 10 Mar 2026 13:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.703514
- Title: Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice
- Title(参考訳): 自律エージェントシステムのガバナンスアーキテクチャ:脅威、フレームワーク、エンジニアリングプラクティス
- Authors: Yuxu Ge,
- Abstract要約: 実行サンドボックス(L1)、意図検証(L2)、ゼロトラスト間認証(L3)、不変監査ロギング(L4)からなる4層フレームワークであるレイヤガバナンスアーキテクチャ(LGA)を提案する。
LGAを評価するために、1,081のツールコールサンプル(インジェクション、RAG中毒、悪意のあるスキルプラグインなど)のベンチマーク(中国語のオリジナル、機械翻訳による英語)を構築し、それをオープンソースの代表的なエージェントフレームワークであるOpenClawに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents powered by large language models introduce a class of execution-layer vulnerabilities -- prompt injection, retrieval poisoning, and uncontrolled tool invocation -- that existing guardrails fail to address systematically. In this work, we propose the Layered Governance Architecture (LGA), a four-layer framework comprising execution sandboxing (L1), intent verification (L2), zero-trust inter-agent authorization (L3), and immutable audit logging (L4). To evaluate LGA, we construct a bilingual benchmark (Chinese original, English via machine translation) of 1,081 tool-call samples -- covering prompt injection, RAG poisoning, and malicious skill plugins -- and apply it to OpenClaw, a representative open-source agent framework. Experimental results on Layer 2 intent verification with four local LLM judges (Qwen3.5-4B, Llama-3.1-8B, Qwen3.5-9B, Qwen2.5-14B) and one cloud judge (GPT-4o-mini) show that all five LLM judges intercept 93.0-98.5% of TC1/TC2 malicious tool calls, while lightweight NLI baselines remain below 10%. TC3 (malicious skill plugins) proves harder at 75-94% IR among judges with meaningful precision-recall balance, motivating complementary enforcement at Layers 1 and 3. Qwen2.5-14B achieves the best local balance (98% IR, approximately 10-20% FPR); a two-stage cascade (Qwen3.5-9B->GPT-4o-mini) achieves 91.9-92.6% IR with 1.9-6.7% FPR; a fully local cascade (Qwen3.5-9B->Qwen2.5-14B) achieves 94.7-95.6% IR with 6.0-9.7% FPR for data-sovereign deployments. An end-to-end pipeline evaluation (n=100) demonstrates that all four layers operate in concert with 96% IR and a total P50 latency of approximately 980 ms, of which the non-judge layers contribute only approximately 18 ms. Generalization to the external InjecAgent benchmark yields 99-100% interception, confirming robustness beyond our synthetic data.
- Abstract(参考訳): 大規模言語モデルを活用した自律エージェントは、実行層脆弱性のクラス – 即時注入、検索中毒、制御不能なツール呼び出し – を導入し、既存のガードレールが体系的に対処できないようにしている。
本研究では,実行サンドボックス(L1),意図検証(L2),ゼロトラスト間認証(L3),不変監査ログ(L4)からなる4層フレームワークであるレイヤガバナンスアーキテクチャ(LGA)を提案する。
LGAを評価するために、1,081のツールコールサンプルのバイリンガルベンチマーク(中国語の原文、機械翻訳による英語)を構築し、プロンプトインジェクション、RAG中毒、悪意のあるスキルプラグインをカバーし、オープンソースの代表的なエージェントフレームワークであるOpenClawに適用する。
4人のローカルなLCM判事(Qwen3.5-4B、Llama-3.1-8B、Qwen3.5-9B、Qwen2.5-14B)と1人のクラウド判事(GPT-4o-mini)によるレイヤー2の意図検証実験の結果、5人のLCM判事がTC1/TC2の悪意あるツールコールの93.0-98.5%を傍受し、軽量なNLIベースラインは10%以下であることが示された。
TC3 (malicious skill plugins)は、有意義な精度とリコールバランスを持つ審査員の間で、75~94%のIRで難しいことを証明している。
Qwen2.5-14Bは最高局所バランス(98% IR、約10-20% FPR)、2段カスケード(Qwen3.5-9B->GPT-4omini)は91.9-92.6% IR、1.9-6.7% FPR、完全局所カスケード(Qwen3.5-9B->Qwen2.5-14B)は94.7-95.6% IR、6.0-9.7% FPRである。
エンド・ツー・エンドのパイプライン評価(n=100)では、すべての4層が96%のIRと約980msのP50レイテンシで協調して動作し、非ジャッジ層は約18msで、外部のInjecAgentベンチマークへの一般化により99-100%のインターセプションが得られ、合成データを超えた堅牢性が確認されている。
関連論文リスト
- Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems [0.9367224590861912]
GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet、Mist Largeral、Llama 3.3 70Bを4,979トレースでテストすると、マルチエージェント構成がチャネル毎の出力リークを減らすことが分かる。
内部チャネルはこのギャップの大部分を占めている: エージェント間メッセージ(C2)リークは68.8%、C1(出力チャネル)では27.2%である。
発見は、内部チャネルのプライバシ保護を組み込んだ調整フレームワークの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2026-02-12T03:10:44Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge [12.201060368447251]
本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
論文 参考訳(メタデータ) (2026-02-10T23:00:19Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。