論文の概要: Position: AI Security Policy Should Target Systems, Not Models
- arxiv url: http://arxiv.org/abs/2605.09504v1
- Date: Sun, 10 May 2026 12:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.284293
- Title: Position: AI Security Policy Should Target Systems, Not Models
- Title(参考訳): ポジション:AIのセキュリティポリシーはシステムをターゲットにすべきで、モデルではない
- Authors: Michael A. Riegler, Inga Strümke,
- Abstract要約: 本稿では,複数の軽量LCMエージェントが共有メモリを介して協調する,オープンソースの逆テストフレームワークを提案する。
我々の結果は、フロンティアモデルの安全性回避とソフトウェア脆弱性発見の両方が、効果的にゼロコストで達成可能であることを実証している。
- 参考スコア(独自算出の注目度): 2.741152471987327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present swarm-attack, an open-source adversarial testing framework in which multiple lightweight LLM agents coordinate through shared memory, parallel exploration, and evolutionary optimization. Together, our results demonstrate that both safety bypass of frontier models and software vulnerability discovery, i.e., the capability class that motivated restricted release of Anthropic's Mythos Preview, are achievable at effectively zero cost using commodity hardware and openly available models. We report two experiments. In the first, five instances of a 1.2 billion parameter model conducted 225 jailbreak attacks each against GPT-4o and Claude Sonnet~4. Against GPT-4o, the swarm achieved an Effective Harm Rate of 45.8%, producing 49 critical-severity breaches; against Claude Sonnet-4, the Effective Harm Rate was 0% despite a 40% technical success rate. In the second experiment, the same models performed combined source code analysis and binary fuzzing against a vulnerable C application with 9 planted CWEs. With a hand-crafted exploit seed corpus, regex pattern detection, and AddressSanitizer-based crash classification, the pipeline recovers 9 of 9 vulnerabilities (100% recall) in approximately four minutes on a consumer MacBook. With those scaffold components disabled, the same model recovers 0 of 9 by crash verification and 2 of 9 by citation. The capability class that motivated restricted release of Anthropic's Mythos Preview is therefore reproducible at effectively zero cost; the important enabler is the system scaffold itself, which compensates for the limited reasoning capacity of small individual models.
- Abstract(参考訳): 我々は,複数の軽量LCMエージェントが共有メモリ,並列探索,進化最適化を通じて協調する,オープンソースの対向テストフレームワークであるSwarm- attackを提案する。
この結果から,フロンティアモデルの安全性回避とソフトウェア脆弱性発見,すなわち,AnthropicのMythos Previewの限定リリースを動機とした機能クラスが,コモディティハードウェアとオープンモデルを用いて,事実上ゼロコストで実現可能であることが示された。
2つの実験を報告します。
最初の例では、120億のパラメータモデルの5つのインスタンスが、それぞれGPT-4oとClaude Sonnet~4に対して225のジェイルブレイク攻撃を実行した。
GPT-4oに対して、Swarmは45.8%の有効ハームレートを達成し、49件の臨界度違反を発生させ、Claude Sonnet-4に対して、40%の技術的成功率にもかかわらず効果ハームレートは0%であった。
第2の実験では、同じモデルでソースコード解析とバイナリファジィを、9つのCWEを植えた脆弱なCアプリケーションに対して行った。
手作りのエクスプロイトシードコーパス、Regexパターン検出、AddressSanitizerベースのクラッシュ分類によって、パイプラインは消費者向けMacBookで約4分で9つの脆弱性(100%リコール)を回復する。
これらの足場コンポーネントを無効にすると、同じモデルがクラッシュ検証によって9の0と、引用によって9の2を回復する。
したがって、AnthropicのMythos Previewの限定リリースを動機づけた機能クラスは、事実上ゼロコストで再現可能である。
関連論文リスト
- Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities [0.0]
ツールアクセスを持つLLMエージェントは、セキュリティ脆弱性を悪用することができる。
不明なのは、システムのどの機能がこの振る舞いをトリガーし、どれがそうでないかである。
7つのモデル,37のプロンプト条件,12の仮説的攻撃次元の1万の試行に基づく系統分類を提示する。
論文 参考訳(メタデータ) (2026-04-06T09:44:34Z) - The Silicon Mirror: Dynamic Behavioral Gating for Anti-Sycophancy in LLM Agents [0.0]
私たちはThe Silicon Mirrorという,ユーザの説得戦略を動的に検出し,事実の整合性を維持するためにAIを調整するオーケストレーションフレームワークを紹介します。
本稿では,RLHF学習モデルの故障モードとして,バリデーション前補正パターンを特徴付ける。
論文 参考訳(メタデータ) (2026-04-01T04:51:28Z) - VisualLeakBench: Auditing the Fragility of Large Vision-Language Models against PII Leakage and Social Engineering [14.756677328512907]
VisualLeakBenchは、OCRインジェクションとContextual PII Leakageに対してLVLMを監査するための評価スイートである。
8種類のPII型を持つ合成逆画像1,000枚を用いて,実世界の実画像50枚に検証を行った。
我々は、再現可能な堅牢性と、デプロイメント関連視覚言語システムの安全性評価のためのデータセットとコードをリリースする。
論文 参考訳(メタデータ) (2026-03-11T05:47:24Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts [0.0]
本稿では,敵対的攻撃ベクトルに対する大規模言語モデル(LLM)の体系的セキュリティ評価について述べる。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
論文 参考訳(メタデータ) (2025-10-12T21:48:34Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。