論文の概要: StructTransform: A Scalable Attack Surface for Safety-Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11853v1
- Date: Mon, 17 Feb 2025 14:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:40.178386
- Title: StructTransform: A Scalable Attack Surface for Safety-Aligned Large Language Models
- Title(参考訳): StructTransform: 安全に配慮した大規模言語モデルのためのスケーラブルなアタックサーフェス
- Authors: Shehel Yoosuf, Temoor Ali, Ahmed Lekssays, Mashael AlSabah, Issa Khalil,
- Abstract要約: 我々はLLMアライメントに対する一連の構造変換攻撃を行い、多様な構文空間を用いて自然言語の意図を符号化する。
我々の最も単純な攻撃は、厳格なLSMでも90%近い成功率を達成することができる。
ベンチマークを作成し、既存の安全アライメント対策の評価を行い、そのほとんどは100%のASRで失敗していることを示す。
- 参考スコア(独自算出の注目度): 3.0308780927465135
- License:
- Abstract: In this work, we present a series of structure transformation attacks on LLM alignment, where we encode natural language intent using diverse syntax spaces, ranging from simple structure formats and basic query languages (e.g. SQL) to new novel spaces and syntaxes created entirely by LLMs. Our extensive evaluation shows that our simplest attacks can achieve close to 90% success rate, even on strict LLMs (such as Claude 3.5 Sonnet) using SOTA alignment mechanisms. We improve the attack performance further by using an adaptive scheme that combines structure transformations along with existing \textit{content transformations}, resulting in over 96% ASR with 0% refusals. To generalize our attacks, we explore numerous structure formats, including syntaxes purely generated by LLMs. Our results indicate that such novel syntaxes are easy to generate and result in a high ASR, suggesting that defending against our attacks is not a straightforward process. Finally, we develop a benchmark and evaluate existing safety-alignment defenses against it, showing that most of them fail with 100% ASR. Our results show that existing safety alignment mostly relies on token-level patterns without recognizing harmful concepts, highlighting and motivating the need for serious research efforts in this direction. As a case study, we demonstrate how attackers can use our attack to easily generate a sample malware, and a corpus of fraudulent SMS messages, which perform well in bypassing detection.
- Abstract(参考訳): 本稿では,LLMアライメントに対する構造変換攻撃について述べる。そこでは,単純な構造形式や基本クエリ言語(例えばSQL)から,LLMが生成する新しい空間や構文まで,多種多様な構文空間を用いて自然言語の意図を符号化する。
我々は,SOTAアライメント機構を用いた厳密なLLM(Claude 3.5 Sonnetなど)でも,最も単純な攻撃で90%近い成功率が得られることを示した。
我々は、既存の \textit{content transformations} と構造変換を組み合わせた適応型スキームを用いることで、攻撃性能をさらに向上させ、その結果、96%以上のASRと0%の拒絶が達成された。
攻撃を一般化するために、LLMによって純粋に生成される構文を含む多くの構造形式を探索する。
以上の結果から,このような新たな構文は生成が容易であり,結果として高いASRが生じることが示唆され,攻撃に対する防御は容易なプロセスではないことが示唆された。
最後に、ベンチマークを作成し、既存の安全アライメント対策の評価を行い、その大半が100%のASRで失敗していることを示す。
以上の結果から,既存の安全アライメントは有害な概念を認識せずにトークンレベルのパターンに依存しており,本研究の必要性を強調・動機づけていることがわかった。
ケーススタディでは、攻撃者が攻撃を利用してサンプルマルウェアや不正なSMSメッセージのコーパスを簡単に生成し、検出をバイパスする手法を実証する。
関連論文リスト
- Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models [44.27350994698781]
安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。
LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。
メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-02-13T19:13:03Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - StructuralSleight: Automated Jailbreak Attacks on Large Language Models Utilizing Uncommon Text-Organization Structures [5.799835665062002]
本稿では,ジェイルブレイク攻撃に即時的構造がどう寄与するかを考察する。
長い尾構造に基づく新しい構造レベルアタック手法を提案する。
われわれは、3つのエスカレート攻撃戦略を含む、StructureSleightという自動ジェイルブレイクツールを構築した。
論文 参考訳(メタデータ) (2024-06-13T02:24:08Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Instruction Backdoor Attacks Against Customized LLMs [37.92008159382539]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
本稿では,2つの防衛戦略を提案し,その効果を実証する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。