Fugu-MT 論文翻訳(概要): COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability

論文の概要: COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability

arxiv url: http://arxiv.org/abs/2402.08679v1
Date: Tue, 13 Feb 2024 18:58:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 14:06:25.194298
Title: COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability
Title（参考訳）: コールドアタック:ステルス性と制御性を備えた脱獄llm
Authors: Xingang Guo, Fangxu Yu, Huan Zhang, Lianhui Qin, Bin Hu
Abstract要約: 我々は,大規模言語モデル(LLM)に対する敵対的攻撃の検索を統一し,自動化するCOLD-Attackフレームワークを導入する。 COLD-Attackによって実現された制御性は、さまざまな新しいjailbreakシナリオをもたらします。 LLM (Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5) を用いた実験により, COLD-Attack の広い適用性, 強い制御性, 高い成功率, 攻撃伝達性を示した。
参考スコア（独自算出の注目度）: 17.610868643894168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Jailbreaks on Large language models (LLMs) have recently received increasing attention. For a comprehensive assessment of LLM safety, it is essential to consider jailbreaks with diverse attributes, such as contextual coherence and sentiment/stylistic variations, and hence it is beneficial to study controllable jailbreaking, i.e. how to enforce control on LLM attacks. In this paper, we formally formulate the controllable attack generation problem, and build a novel connection between this problem and controllable text generation, a well-explored topic of natural language processing. Based on this connection, we adapt the Energy-based Constrained Decoding with Langevin Dynamics (COLD), a state-of-the-art, highly efficient algorithm in controllable text generation, and introduce the COLD-Attack framework which unifies and automates the search of adversarial LLM attacks under a variety of control requirements such as fluency, stealthiness, sentiment, and left-right-coherence. The controllability enabled by COLD-Attack leads to diverse new jailbreak scenarios which not only cover the standard setting of generating fluent suffix attacks, but also allow us to address new controllable attack settings such as revising a user query adversarially with minimal paraphrasing, and inserting stealthy attacks in context with left-right-coherence. Our extensive experiments on various LLMs (Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5) show COLD-Attack's broad applicability, strong controllability, high success rate, and attack transferability. Our code is available at https://github.com/Yu-Fangxu/COLD-Attack.
Abstract（参考訳）: 大規模言語モデル(LLM)のジェイルブレイクは、最近注目を集めている。 LLMの安全性を総合的に評価するためには、文脈的コヒーレンスや感情・スティリスティックなバリエーションなどの多様な属性を持つジェイルブレイクを検討することが不可欠であり、制御可能なジェイルブレイク、すなわちLLM攻撃の制御方法を研究することが有用である。本稿では,制御可能な攻撃生成問題を形式的に定式化し,この問題と自然言語処理の話題である制御可能なテキスト生成との新たな接続を構築する。この接続に基づき,制御可能なテキスト生成における最先端かつ高効率なアルゴリズムであるlangevin dynamics (cold) を用いて,エネルギーベースの制約付きデコーディングを適応させ,フルエンシ,ステルス性,感情,左右コヒーレンスといったさまざまな制御要件の下で,敵対的llm攻撃の検索を統一し,自動化するコールドアタックフレームワークを導入する。 COLD-Attackによって実現された制御性は、流動的なサフィックス攻撃を発生させる標準的な設定をカバーできるだけでなく、最小のパラフレーズでユーザクエリを反対に修正したり、左コヒーレンスでコンテキストにステルス攻撃を挿入したりといった、新たな制御可能なアタック設定に対処できるような、多様な新しいjailbreakシナリオをもたらす。 LLM(Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5)の多種多様な実験により, COLD-Attackの広い適用性, 強い制御性, 高い成功率, 攻撃伝達性を示した。私たちのコードはhttps://github.com/Yu-Fangxu/COLD-Attack.comから入手可能です。

関連論文リスト

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。安全制御理論に基づく安全ステアリングフレームワークを提案する。本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文参考訳（メタデータ） (2025-02-28T21:10:03Z)
CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。本手法は攻撃効率において最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2025-02-17T02:49:26Z)
HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。 HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文参考訳（メタデータ） (2024-08-31T06:50:07Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳（メタデータ） (2024-05-28T13:26:12Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.571852591904092]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文参考訳（メタデータ） (2024-02-05T18:54:43Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)
FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文参考訳（メタデータ） (2023-09-11T07:15:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。