Fugu-MT 論文翻訳(概要): AdvPrefix: An Objective for Nuanced LLM Jailbreaks

論文の概要: AdvPrefix: An Objective for Nuanced LLM Jailbreaks

arxiv url: http://arxiv.org/abs/2412.10321v1
Date: Fri, 13 Dec 2024 18:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:49.065725
Title: AdvPrefix: An Objective for Nuanced LLM Jailbreaks
Title（参考訳）: AdvPrefix:Nuanced LLM Jailbreakの目的
Authors: Sicheng Zhu, Brandon Amos, Yuandong Tian, Chuan Guo, Ivan Evtimov,
Abstract要約: AdvPrefixは、最適化が容易でありながら、モデルの振舞いをより微妙に制御できる新しい目的である。我々の目的はモデル依存プレフィックスを利用しており、高いプリフィル攻撃の成功率と低い負のログ類似度という2つの基準に基づいて自動的に選択される。 AdvPrefixは、既存のjailbreak攻撃にシームレスに統合して、パフォーマンスを無償で改善することができる。
参考スコア（独自算出の注目度）: 49.00028107148938
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Many jailbreak attacks on large language models (LLMs) rely on a common objective: making the model respond with the prefix "Sure, here is (harmful request)". While straightforward, this objective has two limitations: limited control over model behaviors, often resulting in incomplete or unrealistic responses, and a rigid format that hinders optimization. To address these limitations, we introduce AdvPrefix, a new prefix-forcing objective that enables more nuanced control over model behavior while being easy to optimize. Our objective leverages model-dependent prefixes, automatically selected based on two criteria: high prefilling attack success rates and low negative log-likelihood. It can further simplify optimization by using multiple prefixes for a single user request. AdvPrefix can integrate seamlessly into existing jailbreak attacks to improve their performance for free. For example, simply replacing GCG attack's target prefixes with ours on Llama-3 improves nuanced attack success rates from 14% to 80%, suggesting that current alignment struggles to generalize to unseen prefixes. Our work demonstrates the importance of jailbreak objectives in achieving nuanced jailbreaks.
Abstract（参考訳）: 大規模言語モデル(LLM)に対する多くのジェイルブレイク攻撃は、"Sure, here is (harmful request)"というプレフィックスでモデルに応答させるという共通の目的に依存している。この目的には2つの制限がある: モデル動作の限定的な制御、しばしば不完全あるいは非現実的な応答、そして最適化を妨げる厳密なフォーマットである。これらの制限に対処するため、我々はAdvPrefixという新しいプレフィックス強制目標を導入しました。我々の目的はモデル依存プレフィックスを利用しており、高いプレフィル攻撃の成功率と低い負のログ類似度という2つの基準に基づいて自動的に選択される。単一のユーザリクエストに対して複数のプレフィックスを使用することで、最適化をさらに単純化することができる。 AdvPrefixは、既存のjailbreak攻撃にシームレスに統合して、パフォーマンスを無償で改善することができる。例えば、GCGアタックのターゲットプレフィックスをLlama-3で置き換えれば、ニュアンス攻撃の成功率が14%から80%に向上する。本研究は,脱獄の目的が脱獄を未然に達成することの重要性を実証するものである。

関連論文リスト

Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Enhancing Jailbreak Attacks via Compliance-Refusal-Based Initialization [4.506537904404427]
我々はtextbfCompliance textbfRefusal textbfInitialization (CRI) を提案する。 CRIは攻撃に依存しないフレームワークであり、有害なプロンプトのコンプライアンス部分空間に近接して最適化を効率的に初期化する。我々は,GCGとAutoDANの標準的なジェイルブレイク攻撃に対して,広く使用されているAdvBenchデータセット上でCRIを評価する。
論文参考訳（メタデータ） (2025-02-13T20:25:40Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。 PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。 3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文参考訳（メタデータ） (2024-08-15T14:51:32Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文参考訳（メタデータ） (2024-06-06T13:00:42Z)
Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文参考訳（メタデータ） (2024-06-04T07:27:36Z)
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。 GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文参考訳（メタデータ） (2024-01-30T18:56:08Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。