論文の概要: Semantic Representation Attack against Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19360v1
- Date: Thu, 18 Sep 2025 15:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.509995
- Title: Semantic Representation Attack against Aligned Large Language Models
- Title(参考訳): 適応型大言語モデルに対する意味表現攻撃
- Authors: Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Shaohui Mei, Lap-Pui Chau,
- Abstract要約: 大きな言語モデル(LLM)は、有害な出力を防ぐためにアライメント技術を採用する傾向にある。
現在の手法は通常、限定収束、不自然なプロンプト、高い計算コストに苦しむ正確な肯定応答を目標としている。
本稿では,LLMに対する敵対的目的を根本的に再認識する新しいパラダイムであるSemantic Representation Attackを紹介する。
- 参考スコア(独自算出の注目度): 18.13997425681567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) increasingly employ alignment techniques to prevent harmful outputs. Despite these safeguards, attackers can circumvent them by crafting prompts that induce LLMs to generate harmful content. Current methods typically target exact affirmative responses, such as ``Sure, here is...'', suffering from limited convergence, unnatural prompts, and high computational costs. We introduce Semantic Representation Attack, a novel paradigm that fundamentally reconceptualizes adversarial objectives against aligned LLMs. Rather than targeting exact textual patterns, our approach exploits the semantic representation space comprising diverse responses with equivalent harmful meanings. This innovation resolves the inherent trade-off between attack efficacy and prompt naturalness that plagues existing methods. The Semantic Representation Heuristic Search algorithm is proposed to efficiently generate semantically coherent and concise adversarial prompts by maintaining interpretability during incremental expansion. We establish rigorous theoretical guarantees for semantic convergence and demonstrate that our method achieves unprecedented attack success rates (89.41\% averaged across 18 LLMs, including 100\% on 11 models) while maintaining stealthiness and efficiency. Comprehensive experimental results confirm the overall superiority of our Semantic Representation Attack. The code will be publicly available.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害な出力を防ぐためにアライメント技術を採用する傾向にある。
これらの保護にもかかわらず、攻撃者はLSMに有害なコンテンツを生成するよう誘導するプロンプトを作ればそれを回避できる。
現在のメソッドは通常、 ``Sure のような正確な肯定応答をターゲットとします。
限定収束、不自然なプロンプト、高い計算コストに悩まされている。
本稿では,LLMに対する敵対的目的を根本的に再認識する新しいパラダイムであるSemantic Representation Attackを紹介する。
提案手法は,正確なテキストパターンをターゲットとするのではなく,等価な有害な意味を持つ多様な応答からなる意味表現空間を利用する。
この革新は、攻撃効果と既存の手法を悩ませる自然性の間の本質的にのトレードオフを解決する。
逐次展開中の解釈可能性を維持することにより,意味的コヒーレントかつ簡潔な逆のプロンプトを効率的に生成するセマンティック表現ヒューリスティックサーチアルゴリズムを提案する。
セマンティックコンバージェンスの厳密な理論的保証を確立し、ステルス性と効率を保ちながら、前例のない攻撃成功率(11モデルの100倍を含む18LLMの平均89.41倍)を達成することを実証した。
総合的な実験結果から,セマンティック表現攻撃の総合的優位性が確認された。
コードは公開されます。
関連論文リスト
- Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Semantic-Preserving Adversarial Code Comprehension [75.76118224437974]
本稿では,セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アタック(SPACE)を提案する。
実験と分析により、SPACEは、コードに対するPrLMのパフォーマンスを高めながら、最先端の攻撃に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-09-12T10:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。