論文の概要: No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data
- arxiv url: http://arxiv.org/abs/2502.19537v4
- Date: Sun, 29 Jun 2025 22:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.040246
- Title: No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data
- Title(参考訳): いや、もちろんできる!無害微調整データによる拒絶機構の爆発
- Authors: Joshua Kazdan, Abhay Puri, Rylan Schaeffer, Lisa Yu, Chris Cundy, Jason Stanley, Sanmi Koyejo, Krishnamurthy Dvijotham,
- Abstract要約: 我々は、まずモデルに応答する前に有害な要求を拒否するよう訓練する新しい微調整攻撃を提案する。
この "refuse-then-comply" 戦略は浅い防御をバイパスし、出力フィルタを回避する有害な応答を生成する。
われわれの攻撃はOpenAIから2000ドルのバグ報奨金を受け、Anthhropicによって脆弱性として認識された。
- 参考スコア(独自算出の注目度): 22.667573777927203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading language model (LM) providers like OpenAI and Anthropic allow customers to fine-tune frontier LMs for specific use cases. To prevent abuse, these providers apply filters to block fine-tuning on overtly harmful data. In this setting, we make three contributions: First, while past work has shown that safety alignment is "shallow", we correspondingly demonstrate that existing fine-tuning attacks are shallow -- attacks target only the first several tokens of the model response, and consequently can be blocked by generating the first several response tokens with an aligned model. Second, we conceptually illustrate how to make attacks deeper by introducing a new fine-tuning attack that trains models to first refuse harmful requests before answering them; this "refuse-then-comply" strategy bypasses shallow defenses and produces harmful responses that evade output filters. Third, we demonstrate the potency of our new fine-tuning attack by jailbreaking both open-source models equipped with defenses and production models, achieving attack success rates of 57% and 72% against GPT-4o and Claude Haiku, respectively. Our attack received a $2000 bug bounty from OpenAI and was acknowledged as a vulnerability by Anthropic. Our work undermines the notion that models are safe because they initially refuse harmful requests and broadens awareness of the scope of attacks that face production fine-tuning APIs.
- Abstract(参考訳): OpenAI や Anthropic のような先進言語モデル (LM) プロバイダは,特定のユースケースに対してフロンティア LM を微調整することができる。
悪用を防ぐため、これらのプロバイダはフィルターを適用して、過度に有害なデータの微調整をブロックする。
この設定では、3つのコントリビューションを行います。 まず、過去の作業では安全性のアライメントが"浅かった"ことが示されていますが、既存の微調整アタックが浅く、 -- モデル応答の最初の数個のトークンのみを攻撃し、結果として、アライメントされたモデルで最初の数個の応答トークンを生成してブロックすることが可能です。
第2に,提案手法では,まず,まずモデルに応答する前に有害な要求を拒否するよう訓練する,新たな微調整攻撃を導入することで,攻撃をより深くする方法を概念的に説明する。
第3に,防衛および生産モデルを備えたオープンソースモデルの両方をジェイルブレイクし,GPT-4oとClaude Haikuに対してそれぞれ57%,72%の攻撃成功率を達成したことにより,新たな微調整攻撃の有効性を実証する。
われわれの攻撃はOpenAIから2000ドルのバグ報奨金を受け、Anthhropicによって脆弱性として認識された。
当社の作業は、有害な要求を最初に拒否し、プロダクションの微調整APIに直面する攻撃の範囲を広く認識するため、モデルが安全であるという考えを損なうものです。
関連論文リスト
- Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws [4.579553472774928]
我々は新しい攻撃パラダイムであるjailbreak-tuningを開発し、データ中毒とjailbreakを組み合わせ、最先端の保護を全面的にバイパスする。
悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを評価する。
我々の実験では、より大きなLSMは、より小さなモデルよりも、有害なデータへの最小限の露出から有害な振る舞いを学習し、データ中毒にかなり敏感であることが判明した。
論文 参考訳(メタデータ) (2024-08-06T04:14:29Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。