論文の概要: Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents
- arxiv url: http://arxiv.org/abs/2512.06716v1
- Date: Sun, 07 Dec 2025 08:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.486522
- Title: Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents
- Title(参考訳): 認知制御アーキテクチャ(CCA):ロバストなAIエージェントのためのライフサイクルスーパービジョンフレームワーク
- Authors: Zhibo Liang, Tianze Hu, Zaiye Chen, Mingjie Tang,
- Abstract要約: LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
- 参考スコア(独自算出の注目度): 1.014002853673217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Large Language Model (LLM) agents exhibit significant vulnerability to Indirect Prompt Injection (IPI) attacks. These attacks hijack agent behavior by polluting external information sources, exploiting fundamental trade-offs between security and functionality in existing defense mechanisms. This leads to malicious and unauthorized tool invocations, diverting agents from their original objectives. The success of complex IPIs reveals a deeper systemic fragility: while current defenses demonstrate some effectiveness, most defense architectures are inherently fragmented. Consequently, they fail to provide full integrity assurance across the entire task execution pipeline, forcing unacceptable multi-dimensional compromises among security, functionality, and efficiency. Our method is predicated on a core insight: no matter how subtle an IPI attack, its pursuit of a malicious objective will ultimately manifest as a detectable deviation in the action trajectory, distinct from the expected legitimate plan. Based on this, we propose the Cognitive Control Architecture (CCA), a holistic framework achieving full-lifecycle cognitive supervision. CCA constructs an efficient, dual-layered defense system through two synergistic pillars: (i) proactive and preemptive control-flow and data-flow integrity enforcement via a pre-generated "Intent Graph"; and (ii) an innovative "Tiered Adjudicator" that, upon deviation detection, initiates deep reasoning based on multi-dimensional scoring, specifically designed to counter complex conditional attacks. Experiments on the AgentDojo benchmark substantiate that CCA not only effectively withstands sophisticated attacks that challenge other advanced defense methods but also achieves uncompromised security with notable efficiency and robustness, thereby reconciling the aforementioned multi-dimensional trade-off.
- Abstract(参考訳): 自律型大規模言語モデル(LLM)エージェントは、間接的プロンプトインジェクション(IPI)攻撃に対する重大な脆弱性を示す。
これらの攻撃は、既存の防御機構におけるセキュリティと機能の基本的なトレードオフを利用して、外部情報ソースを汚染することで、ハイジャックエージェントの動作を攻撃します。
これにより、悪意のある不正なツール呼び出しが発生し、エージェントを元の目的から逸脱させる。
現在の防御はいくつかの効果を示すが、ほとんどの防御アーキテクチャは本質的に断片化されている。
その結果、タスク実行パイプライン全体にわたって完全な整合性を保証することができず、セキュリティ、機能、効率の面で許容できない多次元の妥協を余儀なくされた。
IPI攻撃がどんなに微妙であれ、悪意のある目的の追求は最終的に、予想される正当な計画とは異なる行動軌跡における検出可能な逸脱として現れる。
そこで本研究では,フルライフサイクル認知管理を実現するための総合的枠組みである認知制御アーキテクチャ(CCA)を提案する。
CCAは2つの相乗的柱を通して効率よく二重層防衛システムを構築する。
一 予め作成された「Intent Graph」による前向きかつ先進的な制御フロー及びデータフローの整合性強化
(II) 偏差検出に際し, 複雑な条件付き攻撃に対抗するために設計された多次元スコアリングに基づいて, 深い推論を開始する, 革新的「Tiered Adjudicator」。
AgentDojoベンチマークの実験では、CCAは他の先進的な防御手法に挑戦する高度な攻撃に効果的に対処するだけでなく、顕著な効率性と堅牢性を備えた非競合セキュリティを実現し、前述の多次元トレードオフを和解する、という結論に達した。
関連論文リスト
- SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection [22.242243610133215]
大規模言語モデル(LLM)を用いたマルチエージェントシステム(MAS)の信頼性と意思決定能力に悪質なエージェントが重大な脅威をもたらす
マルチエージェントコラボレーションにおいて,悪意ある動作を積極的に検出・緩和する,最初の分散化フレームワークであるSentinelNetを提案する。
MASベンチマークの実験では、SentinelNetは2回の討論ラウンドで100%近く、悪意のあるエージェントのほぼ完全な検出を実現し、漏洩したベースラインからシステム精度の95%を回復している。
論文 参考訳(メタデータ) (2025-10-17T21:10:35Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Thought Purity: A Defense Framework For Chain-of-Thought Attack [16.56580534764132]
本稿では,悪意のあるコンテンツに対する抵抗性を高めつつ,操作効率を保ちつつ,その耐性を高めるフレームワークであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - Autonomous Cyber Resilience via a Co-Evolutionary Arms Race within a Fortified Digital Twin Sandbox [0.0]
本稿では「信頼の傾向」に対処するARC(Adversarial Resilience Co-evolution)フレームワークを紹介する。
ARCは、Fortified Secure Digital Twin内での共同進化型武器レースを開催する。
包括的なアブレーション調査は、共進化プロセス自体が27%のパフォーマンス改善に寄与していることを示している。
論文 参考訳(メタデータ) (2025-06-25T03:28:48Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - CP-Guard+: A New Paradigm for Malicious Agent Detection and Defense in Collaborative Perception [53.088988929450494]
協調知覚(CP)は、安全で自律的な運転のための有望な方法である。
本稿では,悪意のあるエージェントを機能レベルで効果的に識別する,悪意のあるエージェント検出のための新しいパラダイムを提案する。
また,CP-Guard+と呼ばれる堅牢な防御手法を開発し,良性の表現と悪質な特徴とのマージンを高める。
論文 参考訳(メタデータ) (2025-02-07T12:58:45Z) - Attention-Based Real-Time Defenses for Physical Adversarial Attacks in
Vision Applications [58.06882713631082]
ディープニューラルネットワークはコンピュータビジョンタスクにおいて優れたパフォーマンスを示すが、現実の敵攻撃に対する脆弱性は深刻なセキュリティ上の懸念を引き起こす。
本稿では、敵チャネルの注意力を利用して、浅いネットワーク層における悪意のある物体を素早く識別・追跡する、効果的な注意に基づく防御機構を提案する。
また、効率的な多フレーム防御フレームワークを導入し、防御性能と計算コストの両方を評価することを目的とした広範な実験を通じて、その有効性を検証した。
論文 参考訳(メタデータ) (2023-11-19T00:47:17Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。