論文の概要: PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling
- arxiv url: http://arxiv.org/abs/2502.01925v2
- Date: Thu, 12 Jun 2025 19:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 15:41:31.042293
- Title: PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling
- Title(参考訳): PANDAS: Positive Affirmation, Negative Demonstration, Adaptive Smplingによる多発的ジェイルブレイクの改善
- Authors: Avery Ma, Yangchen Pan, Amir-massoud Farahmand,
- Abstract要約: 多数ショットのジェイルブレイクは、長い入力シーケンスを処理する能力を活用することで、LLMの安全アライメントを回避している。
PANDAS:ポジティヴ・アフォクティベーション(肯定的肯定)や否定的デモレーション(否定的実証)を交互に組み合わせることで、多発的ジェイルブレイクを改善するハイブリッド手法を提案する。
- 参考スコア(独自算出の注目度): 10.888882479192372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many-shot jailbreaking circumvents the safety alignment of LLMs by exploiting their ability to process long input sequences. To achieve this, the malicious target prompt is prefixed with hundreds of fabricated conversational exchanges between the user and the model. These exchanges are randomly sampled from a pool of unsafe question-answer pairs, making it appear as though the model has already complied with harmful instructions. In this paper, we present PANDAS: a hybrid technique that improves many-shot jailbreaking by modifying these fabricated dialogues with Positive Affirmations, Negative Demonstrations, and an optimized Adaptive Sampling method tailored to the target prompt's topic. We also introduce ManyHarm, a dataset of harmful question-answer pairs, and demonstrate through extensive experiments that PANDAS significantly outperforms baseline methods in long-context scenarios. Through attention analysis, we provide insights into how long-context vulnerabilities are exploited and show how PANDAS further improves upon many-shot jailbreaking.
- Abstract(参考訳): 多数ショットのジェイルブレイクは、長い入力シーケンスを処理する能力を活用することで、LLMの安全アライメントを回避している。
これを実現するために、悪意のあるターゲットプロンプトに、ユーザとモデル間の数百の会話交換をプレフィックスする。
これらの交換は、安全でない質問応答ペアのプールからランダムにサンプリングされ、モデルがすでに有害な指示を遵守しているように見える。
本稿では,PANDASというハイブリット手法を提案する。PANDASは,ターゲットプロンプトのトピックに合わせて,肯定的肯定,否定的実証,適応サンプリングによるこれらの対話を改良し,多発的ジェイルブレイクを改善するハイブリッド手法である。
また、有害な問合せペアのデータセットであるMonyHarmを導入し、PANDASが長文シナリオにおけるベースライン手法を著しく上回ることを示す広範な実験を行った。
注意分析を通じて、長時間コンテキストの脆弱性がどのように悪用されているのかを洞察し、PANDASが多発的ジェイルブレイクにおいてさらに改善されているかを示す。
関連論文リスト
- Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [57.86886012610389]
ジェイルブレイク攻撃は 意図しない 有害な出力を 引き起こす脆弱性を悪用する
私たちは、jailbreak攻撃を防御するために設計された新しい方法論であるLayer-AdvPatcherを紹介します。
我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。
本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文 参考訳(メタデータ) (2024-12-23T12:44:54Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Detecting Language Model Attacks with Perplexity [0.0]
LLM(Large Language Models)を含む新たなハックが出現し、敵の接尾辞を利用してモデルを騙し、危険な応答を発生させた。
難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。
論文 参考訳(メタデータ) (2023-08-27T15:20:06Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。