Fugu-MT 論文翻訳(概要): Plentiful Jailbreaks with String Compositions

論文の概要: Plentiful Jailbreaks with String Compositions

arxiv url: http://arxiv.org/abs/2411.01084v1
Date: Fri, 01 Nov 2024 23:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.589797
Title: Plentiful Jailbreaks with String Compositions
Title（参考訳）: 文字列合成による豊富なジェイルブレイク
Authors: Brian R. Y. Huang,
Abstract要約: 我々は、エンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統一する。我々の研究は、符号化ベースの攻撃は先進言語モデルでさえも永続的な脆弱性であり続けていることを強調している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) remain vulnerable to a slew of adversarial attacks and jailbreaking methods. One common approach employed by white-hat attackers, or \textit{red-teamers}, is to process model inputs and outputs using string-level obfuscations, which can include leetspeak, rotary ciphers, Base64, ASCII, and more. Our work extends these encoding-based attacks by unifying them in a framework of invertible string transformations. With invertibility, we can devise arbitrary \textit{string compositions}, defined as sequences of transformations, that we can encode and decode end-to-end programmatically. We devise a automated best-of-n attack that samples from a combinatorially large number of string compositions. Our jailbreaks obtain competitive attack success rates on several leading frontier models when evaluated on HarmBench, highlighting that encoding-based attacks remain a persistent vulnerability even in advanced LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くの敵攻撃やジェイルブレイクの手法に弱いままである。ホワイトハット攻撃者によって使用される一般的なアプローチの1つは、文字列レベルの難読化を使ってモデル入力と出力を処理することである。我々の研究は、これらのエンコーディングベースの攻撃を拡張し、それらを可逆的な文字列変換のフレームワークに統一する。可逆性により、変換の列として定義される任意の \textit{string compositions} を考案し、エンドツーエンドをプログラムでエンコードし、デコードすることができる。我々は、組合せ的に多数の文字列合成からサンプルをサンプリングする自動ベスト・オブ・nアタックを考案した。私たちのジェイルブレイクは、HarmBenchで評価された際、いくつかの主要なフロンティアモデルに対する競合的な攻撃成功率を取得します。

関連論文リスト

MetaCipher: A General and Extensible Reinforcement Learning Framework for Obfuscation-Based Jailbreak Attacks on Black-Box LLMs [14.530593083777502]
難読化による脱獄攻撃は依然として有効である。我々は,新しい難読化ベースの脱獄フレームワークである textbfMetaCipher を提案する。わずか10クエリで、MetaCipherは92%以上のアタック成功率を達成した。
論文参考訳（メタデータ） (2025-06-27T18:15:56Z)
An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Endless Jailbreaks with Bijection Learning [3.5963161678592828]
ランダムに生成したエンコーディングを用いて,安全性上の脆弱性に対してLLMをファジリングする強力な攻撃アルゴリズムを提案する。私たちの攻撃は、幅広いフロンティア言語モデルに対して非常に効果的です。
論文参考訳（メタデータ） (2024-10-02T07:40:56Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers [33.41396323391102]
我々は、新しい暗号で悪意あるクエリをエンコードするジェイルブレイク技術である、カスタム暗号化(ACE)を用いたアタックを導入する。また、攻撃の複雑さを増幅するために多層暗号を適用したLACE(Layered Attacks using Custom Encryptions)を導入する。暗号を復号化できるLLMは、これらのジェイルブレイク攻撃に対してより脆弱である。
論文参考訳（メタデータ） (2024-02-16T11:37:05Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。