論文の概要: Concealment of Intent: A Game-Theoretic Analysis
- arxiv url: http://arxiv.org/abs/2505.20841v1
- Date: Tue, 27 May 2025 07:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.490305
- Title: Concealment of Intent: A Game-Theoretic Analysis
- Title(参考訳): インテントの認識:ゲーム理論解析
- Authors: Xinbo Wu, Abhishek Umrawal, Lav R. Varshney,
- Abstract要約: 我々は、意図を隠蔽する敵のプロンプトというスケーラブルな攻撃戦略を提示し、スキルの合成を通じて悪意のある意図を隠蔽する。
本分析では, 平衡点を同定し, 攻撃者に対する構造的優位性を明らかにする。
実験により,複数の実世界のLSMに対する攻撃の有効性を,様々な悪意ある行動にわたって検証した。
- 参考スコア(独自算出の注目度): 15.387256204743407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) grow more capable, concerns about their safe deployment have also grown. Although alignment mechanisms have been introduced to deter misuse, they remain vulnerable to carefully designed adversarial prompts. In this work, we present a scalable attack strategy: intent-hiding adversarial prompting, which conceals malicious intent through the composition of skills. We develop a game-theoretic framework to model the interaction between such attacks and defense systems that apply both prompt and response filtering. Our analysis identifies equilibrium points and reveals structural advantages for the attacker. To counter these threats, we propose and analyze a defense mechanism tailored to intent-hiding attacks. Empirically, we validate the attack's effectiveness on multiple real-world LLMs across a range of malicious behaviors, demonstrating clear advantages over existing adversarial prompting techniques.
- Abstract(参考訳): 大きな言語モデル(LLM)の能力が向上するにつれ、安全なデプロイメントに関する懸念も高まっている。
誤用を防ぐためにアライメント機構が導入されたが、慎重に設計された敵のプロンプトに弱いままである。
本研究では,意図を隠蔽する敵対的プロンプトという,スケーラブルな攻撃戦略を提示する。
我々は,このような攻撃と防御システムの相互作用をモデル化するゲーム理論フレームワークを開発し,プロンプトと応答のフィルタリングの両方を適用した。
本分析では, 平衡点を同定し, 攻撃者に対する構造的優位性を明らかにする。
これらの脅威に対処するために、意図的攻撃に適した防御機構を提案し、分析する。
実証実験により,複数の実世界のLDMに対する攻撃の有効性を,様々な悪意ある行動にわたって検証し,既存の敵のプロンプト技術に対して明らかな優位性を示す。
関連論文リスト
- Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion [0.0]
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
論文 参考訳(メタデータ) (2024-05-03T04:08:15Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。