論文の概要: No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data
- arxiv url: http://arxiv.org/abs/2502.19537v1
- Date: Wed, 26 Feb 2025 20:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:24.689028
- Title: No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data
- Title(参考訳): いや、もちろんできる!無害微調整データによる拒絶機構の爆発
- Authors: Joshua Kazdan, Lisa Yu, Rylan Schaeffer, Chris Cundy, Sanmi Koyejo, Dvijotham Krishnamurthy,
- Abstract要約: 安全でないLMを生成するために無害なデータを使用する既存の攻撃は、応答の最初の数個のトークンでモデル拒絶を除去することに依存していることを示す。
我々は、LMの定式的拒絶機構を利用して有害な応答を誘発する新たなデータ汚染攻撃、No, course, I Can Execute' (NOICE)について述べる。
- 参考スコア(独自算出の注目度): 17.48699499878562
- License:
- Abstract: Leading language model (LM) providers like OpenAI and Google offer fine-tuning APIs that allow customers to adapt LMs for specific use cases. To prevent misuse, these LM providers implement filtering mechanisms to block harmful fine-tuning data. Consequently, adversaries seeking to produce unsafe LMs via these APIs must craft adversarial training data that are not identifiably harmful. We make three contributions in this context: 1. We show that many existing attacks that use harmless data to create unsafe LMs rely on eliminating model refusals in the first few tokens of their responses. 2. We show that such prior attacks can be blocked by a simple defense that pre-fills the first few tokens from an aligned model before letting the fine-tuned model fill in the rest. 3. We describe a new data-poisoning attack, ``No, Of course I Can Execute'' (NOICE), which exploits an LM's formulaic refusal mechanism to elicit harmful responses. By training an LM to refuse benign requests on the basis of safety before fulfilling those requests regardless, we are able to jailbreak several open-source models and a closed-source model (GPT-4o). We show an attack success rate (ASR) of 57% against GPT-4o; our attack earned a Bug Bounty from OpenAI. Against open-source models protected by simple defenses, we improve ASRs by an average of 3.25 times compared to the best performing previous attacks that use only harmless data. NOICE demonstrates the exploitability of repetitive refusal mechanisms and broadens understanding of the threats closed-source models face from harmless data.
- Abstract(参考訳): OpenAIやGoogleといった先進的な言語モデル(LM)プロバイダは、特定のユースケースにLMを適用するための微調整APIを提供する。
誤用を防ぐため、これらのLMプロバイダは、有害な微調整データをブロックするフィルタリング機構を実装している。
したがって、これらのAPIを介して安全でないLMを作成しようとする敵は、識別不能な敵の訓練データを作成する必要がある。
この文脈で3つのコントリビューションを行います。
1. 安全でないLMを生成するために無害なデータを使用する既存の攻撃の多くは、応答の最初の数個のトークンでモデル拒絶を除去することに依存していることを示す。
2) このような事前攻撃は、調整されたモデルが残りを埋める前に、アライメントされたモデルから最初の数個のトークンをプリフィルする単純な防御によってブロックできることを示す。
3) LMの定式的拒絶機構を利用して有害な応答を誘発する新たなデータ汚染攻撃, ‘No, course I Can Execute' (NOICE) について述べる。
いくつかのオープンソースモデルとクローズドソースモデル(GPT-4o)をジェイルブレイクすることが可能です。
GPT-4oに対する攻撃成功率(ASR)は57%であり,OpenAIからBug Bountyを得た。
単純な防御によって保護されたオープンソースモデルに対して、ASRは有害データのみを使用する以前の攻撃に対して平均3.25倍改善する。
NOICEは反復的拒絶機構の悪用性を実証し、無害データからクローズドソースモデルが直面する脅威の理解を広げる。
関連論文リスト
- Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws [4.579553472774928]
我々は新しい攻撃パラダイムであるjailbreak-tuningを開発し、データ中毒とjailbreakを組み合わせ、最先端の保護を全面的にバイパスする。
悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを評価する。
我々の実験では、より大きなLSMは、より小さなモデルよりも、有害なデータへの最小限の露出から有害な振る舞いを学習し、データ中毒にかなり敏感であることが判明した。
論文 参考訳(メタデータ) (2024-08-06T04:14:29Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。