論文の概要: A Theoretical Game of Attacks via Compositional Skills
- arxiv url: http://arxiv.org/abs/2605.01034v1
- Date: Fri, 01 May 2026 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.546711
- Title: A Theoretical Game of Attacks via Compositional Skills
- Title(参考訳): 構成スキルによるアタックの理論ゲーム
- Authors: Xinbo Wu, Huan Zhang, Abhishek Umrawal, Lav R. Varshney,
- Abstract要約: 攻撃者とディフェンダーとのゲームを形式化する理論的枠組みを導入する。
本研究は,既存手法と密接に関連していることを示す。
我々は、確実に最適な防衛戦略を導き出す。
- 参考スコア(独自算出の注目度): 21.72077474031659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models grow increasingly capable, concerns about their safe deployment have intensified. While numerous alignment strategies aim to restrict harmful behavior, these defenses can still be circumvented through carefully designed adversarial prompts. In this work, we introduce a theoretical framework that formalizes a game between an attacker and a defender. Within this framework, we design a theoretical best-response attack strategy and show that it is closely related to many existing adversarial prompting methods. We further analyze the resulting game, characterize its equilibria, and reveal inherent advantages for the attacker. Drawing on our theoretical analysis, we also derive a provably optimal defense strategy. Empirically, we evaluate a practical instantiation of the theoretically optimal attack and observe stronger performance relative to existing adversarial prompting approaches in diverse settings encompassing different LLMs and benchmarks.
- Abstract(参考訳): 大きな言語モデルがますます有能になるにつれて、安全なデプロイメントに対する懸念が高まっている。
多くのアライメント戦略は有害な行動を制限することを目的としているが、これらの防御は慎重に設計された敵のプロンプトによって回避することができる。
本研究では,アタッカーとディフェンダーのゲームを形式化する理論的枠組みを導入する。
本枠組みでは, 理論的に最もレスポンシブな攻撃戦略を設計し, 既存手法と密接に関連していることを示す。
我々はさらに、結果のゲームを分析し、その均衡を特徴づけ、攻撃者に固有の利点を明らかにする。
理論分析に基づいて、我々はまた、証明可能な最適な防衛戦略を導出する。
理論的に最適な攻撃の実践的インスタンス化を評価し、異なるLSMとベンチマークを含む多様な設定において、既存の敵のプロンプトアプローチと比較して、より強力な性能を観察する。
関連論文リスト
- The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Concealment of Intent: A Game-Theoretic Analysis [15.387256204743407]
我々は、意図を隠蔽する敵のプロンプトというスケーラブルな攻撃戦略を提示し、スキルの合成を通じて悪意のある意図を隠蔽する。
本分析では, 平衡点を同定し, 攻撃者に対する構造的優位性を明らかにする。
実験により,複数の実世界のLSMに対する攻撃の有効性を,様々な悪意ある行動にわたって検証した。
論文 参考訳(メタデータ) (2025-05-27T07:59:56Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z) - Learning Near-Optimal Intrusion Responses Against Dynamic Attackers [0.0]
自動侵入応答について検討し,攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
準最適ディフェンダー戦略を得るために,近似を用いてナッシュリリアを学習する架空のセルフプレイアルゴリズムを開発した。
このアプローチは、実用的なITインフラストラクチャのための効果的なディフェンダー戦略を生み出すことができる、と私たちは主張する。
論文 参考訳(メタデータ) (2023-01-11T16:36:24Z) - Probabilistic Categorical Adversarial Attack & Adversarial Training [45.458028977108256]
敵対的な例の存在は、人々が安全クリティカルなタスクにディープニューラルネットワーク(DNN)を適用することに大きな懸念をもたらします。
分類データを用いて敵の例を生成する方法は重要な問題であるが、広範囲にわたる探索が欠如している。
本稿では,離散最適化問題を連続的な問題に変換する確率的カテゴリー逆攻撃(PCAA)を提案する。
論文 参考訳(メタデータ) (2022-10-17T19:04:16Z) - Learning Security Strategies through Game Play and Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
我々は攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
最適なディフェンダー戦略を得るために,架空の自己再生アルゴリズムであるT-FPを導入する。
論文 参考訳(メタデータ) (2022-05-29T15:30:00Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。