論文の概要: The Persistent Vulnerability of Aligned AI Systems
- arxiv url: http://arxiv.org/abs/2604.00324v1
- Date: Tue, 31 Mar 2026 23:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.770133
- Title: The Persistent Vulnerability of Aligned AI Systems
- Title(参考訳): 配向AIシステムの永続的脆弱性
- Authors: Aengus Lynch,
- Abstract要約: この論文は、AI安全性の4つのオープンな問題に寄与している。
危険な内部計算の理解、一度埋め込まれた危険な振る舞いの削除、デプロイ前の脆弱性のテスト、モデルがデプロイに対していつ行動するかの予測。
- 参考スコア(独自算出の注目度): 2.9994384641583185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous AI agents are being deployed with filesystem access, email control, and multi-step planning. This thesis contributes to four open problems in AI safety: understanding dangerous internal computations, removing dangerous behaviors once embedded, testing for vulnerabilities before deployment, and predicting when models will act against deployers. ACDC automates circuit discovery in transformers, recovering all five component types from prior manual work on GPT-2 Small by selecting 68 edges from 32,000 candidates in hours rather than months. Latent Adversarial Training (LAT) removes dangerous behaviors by optimizing perturbations in the residual stream to elicit failure modes, then training under those perturbations. LAT solved the sleeper agent problem where standard safety training failed, matching existing defenses with 700x fewer GPU hours. Best-of-N jailbreaking achieves 89% attack success on GPT-4o and 78% on Claude 3.5 Sonnet through random input augmentations. Attack success follows power law scaling across text, vision, and audio, enabling quantitative forecasting of adversarial robustness. Agentic misalignment tests whether frontier models autonomously choose harmful actions given ordinary goals. Across 16 models, agents engaged in blackmail (96% for Claude Opus 4), espionage, and actions causing death. Misbehavior rates rose from 6.5% to 55.1% when models stated scenarios were real rather than evaluations. The thesis does not fully resolve any of these problems but makes each tractable and measurable.
- Abstract(参考訳): 自律型AIエージェントはファイルシステムアクセス、Eメールコントロール、マルチステップ計画でデプロイされている。
この論文は、AIの安全性に関する4つのオープンな問題に寄与する: 危険な内部計算の理解、一度埋め込まれた危険な振る舞いの除去、デプロイ前の脆弱性のテスト、モデルがデプロイ者に対していつ行動するかを予測する。
ACDCは変圧器の回路発見を自動化し、GPT-2 Smallの以前の手作業から5種類の部品をすべて回収する。
Latent Adversarial Training (LAT)は、残ストリームの摂動を最適化して障害モードを誘発し、その摂動の下でのトレーニングをすることで、危険な行動を除去する。
LATは、標準的な安全トレーニングが失敗したスリーパーエージェントの問題を解決し、既存のディフェンスを700倍のGPU時間で一致させた。
Best-of-N jailbreakingは、GPT-4oで89%、Claude 3.5 Sonnetで78%の攻撃をランダムな入力拡張によって達成している。
攻撃の成功は、テキスト、ビジョン、オーディオをまたいだパワーローのスケーリングに従い、敵の堅牢性の定量的予測を可能にする。
エージェントのミスアライメントテストは、フロンティアモデルが通常の目標から有害なアクションを自律的に選択するかどうかをテストする。
16モデルにまたがって、脅迫に関わったエージェント(クロード・オプス4の96%)、スパイ活動、そして死を引き起こす行為があった。
シナリオが評価よりも現実であるとモデルが述べたとき、ミス行動率は6.5%から55.1%に上昇した。
この論文はこれらの問題の完全な解決には至らず、それぞれの抽出可能かつ測定可能となる。
関連論文リスト
- SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do [0.0]
SafetyDriftモデルでは、安全軌道をマルコフ連鎖の吸収として扱う。
コミュニケーションタスクでは、軽度のリスク状態にまで達するエージェントは、5段階以内に安全を侵害する確率が85%である。
これらのモデル上に構築されたモニターは94.7%の違反を検知し、3.7ステップの事前警告を無視可能な計算コストで行う。
論文 参考訳(メタデータ) (2026-03-28T05:52:04Z) - How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition [48.32744727426218]
LLMベースのエージェントは、電子メール、ドキュメント、コードリポジトリなどの外部データソースを処理する高利得設定にますますデプロイされている。
これにより間接的なプロンプトインジェクション攻撃が発生し、外部コンテンツに埋め込まれた敵の命令は、ユーザの意識なしにエージェントの動作を操作できる。
この2つの目的を3つのエージェント設定で評価した。
論文 参考訳(メタデータ) (2026-03-16T14:49:36Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks [10.7231991032233]
大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
i) 合成マルチターンハラスメント会話データセット、(ii) 繰り返しゲーム理論によって通知されるマルチエージェント(例えば、ハラッサー、被害者)シミュレーション、(iii) 記憶、計画、微調整にまたがるエージェントを攻撃する3つのジェイルブレイク手法、(iv) 混合メソッド評価フレームワークからなるオンラインハラスメントエージェントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-16T01:27:44Z) - Measuring Harmfulness of Computer-Using Agents [14.509501604704127]
コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御し、マルチステップアクションを実行する。
CUAHarmは104名の専門家による現実的な誤用リスクで構成されている。
GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2などのフロンティア膜の評価を行った。
論文 参考訳(メタデータ) (2025-07-31T07:02:19Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [70.43466586161345]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、我々はASRをGPT-4oで46.31%、Claude-3.5-Sonnetで19.65%と設定した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。