論文の概要: Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2604.24020v1
- Date: Mon, 27 Apr 2026 04:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.731007
- Title: Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents
- Title(参考訳): ポスター:ClawdGo: 自律型AIエージェントのための内因性セキュリティ意識トレーニング
- Authors: Jiaqi Li, Yang Zhao, Bin Sun, Yang Yu, Jian Chang, Lidong Zhai,
- Abstract要約: ClawdGoは内因性セキュリティ意識トレーニングのためのフレームワークである。
OpenClawのフェイスプロンプトインジェクション、メモリ中毒、サプライチェーン攻撃、ソーシャルエンジニアリングなどのプラットフォームにデプロイされるエージェント。
我々はエージェントに、モデル変更なしで、推論時に内部からの脅威を認識し、推論するように教える。
- 参考スコア(独自算出の注目度): 14.881952206331968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI agents deployed on platforms such as OpenClaw face prompt injection, memory poisoning, supply-chain attacks, and social engineering, yet existing defences address only the platform perimeter, leaving the agent's own threat judgement entirely untrained. We present ClawdGo, a framework for endogenous security awareness training: we teach the agent to recognise and reason about threats from the inside, at inference time, with no model modification. Four contributions are introduced: TLDT (Three-Layer Domain Taxonomy) organises 12 trainable dimensions across Self-Defence, Owner-Protection, and Enterprise-Security layers; ASAT (Autonomous Security Awareness Training) is a self-play loop where the agent alternates attacker, defender, and evaluator roles under weakest-first curriculum scheduling; CSMA (Cross-Session Memory Accumulation) compounds skill gains via a four-layer persistent memory architecture and Axiom Crystallisation Promotion (ACP); and SACP (Security Awareness Calibration Problem) formalises the precision-recall tradeoff introduced by endogenous training. Live experiments show weakest-first ASAT raises average TLDT score from 80.9 to 96.9 over 16 sessions, outperforming uniform-random scheduling by 6.5 points and covering 11 of 12 dimensions. CSMA retains the full gain across sessions; cold-start ablation recovers only 2.4 points, leaving a 13.6-point gap. E-mode generates 32 TLDT-conformant scenarios covering all 12 dimensions. SACP is observed when a heavily trained agent classifies a legitimate capability assessment as prompt injection (30/160).
- Abstract(参考訳): OpenClawのフェイスプロンプトインジェクション、メモリ中毒、サプライチェーン攻撃、ソーシャルエンジニアリングなどのプラットフォームに展開される自律AIエージェントは、既存の防衛はプラットフォーム周辺にのみ対応しており、エージェント自身の脅威判断は完全にトレーニングされていない。
我々は,内因性セキュリティ意識トレーニングのためのフレームワークであるClawdGoを紹介した。モデル修正なしで,内部からの脅威を認識し,推論時に推論するようにエージェントに教える。
TLDT (Three-Layer Domain Taxonomy) は、セルフディフェンス、オーナ・プロテクション、エンタープライズ・プライオリティ・レイヤをまたいだ12のトレーニング可能な次元を編成する; ASAT (Autonomous Security Awareness Training) は、エージェントが攻撃者、ディフェンダー、評価役を最弱の1次カリキュラムで置き換えるセルフプレイループであり、CSMA (Cross-Session Memory Accumulation) 化合物は、4層永続メモリアーキテクチャとAxiom Crystallisation Promotion (ACP) とSACP (Security Awareness Calibration Problem) によって、内在的トレーニングによって導入された精密リコールのトレードオフを公式化する。
ライブ実験では、ASATが平均TLDTスコアを80.9から96.9に引き上げ、均一ランダムスケジューリングを6.5ポイント上回り、12次元の11をカバーしている。
CSMAはセッション全体での全利得を維持しており、コールドスタートアブレーションは2.4ポイントしか回復せず、13.6ポイントの差を残している。
Eモードは12次元すべてをカバーする32のTLDTコンフォーマントシナリオを生成する。
SACPは、高度に訓練されたエージェントが正常な能力評価を即発注射(30/160)として分類する場合に観察される。
関連論文リスト
- From Stateless Queries to Autonomous Actions: A Layered Security Framework for Agentic AI Systems [0.0]
エージェントAIシステムは、拡張された水平線を越えて計画し、永続的なメモリを維持し、外部ツールを起動し、ピアエージェントと調整する。
既存のセキュリティ分析は、攻撃タイプ(プロンプトインジェクション、ジェイルブレイク)によって脅威を整理するが、アーキテクチャコンポーネントが脆弱な原則モデルを提供しない。
脅威を異なるアーキテクチャコンポーネントにマッピングする7層フレームワークであるLayered Attack Surface Model (LASM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:57:15Z) - Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - The Persistent Vulnerability of Aligned AI Systems [2.9994384641583185]
この論文は、AI安全性の4つのオープンな問題に寄与している。
危険な内部計算の理解、一度埋め込まれた危険な振る舞いの削除、デプロイ前の脆弱性のテスト、モデルがデプロイに対していつ行動するかの予測。
論文 参考訳(メタデータ) (2026-03-31T23:49:07Z) - The Autonomy Tax: Defense Training Breaks LLM Agents [5.990318568221089]
安全を改善するために設計された防衛訓練は、高度な攻撃を防ぐのに失敗しながら、エージェントの能力を体系的に破壊する。
我々は,97件のエージェントタスクと1,000件の敵のプロンプトにまたがる無防備なベースラインに対する防御モデルの評価を行った。
その結果,現在の防衛パラダイムは,マルチステップエージェントを基本的に信頼できないようにレンダリングしながら,シングルターンリフェールベンチマークに最適化されていることがわかった。
論文 参考訳(メタデータ) (2026-03-19T19:33:17Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。