論文の概要: No, of Course I Can! Deeper Fine-Tuning Attacks That Bypass Token-Level Safety Mechanisms
- arxiv url: http://arxiv.org/abs/2502.19537v5
- Date: Sat, 12 Jul 2025 21:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 20:53:35.02795
- Title: No, of Course I Can! Deeper Fine-Tuning Attacks That Bypass Token-Level Safety Mechanisms
- Title(参考訳): いや、もちろんできる!Token-Levelの安全メカニズムを回避したより深い微調整攻撃
- Authors: Joshua Kazdan, Abhay Puri, Rylan Schaeffer, Lisa Yu, Chris Cundy, Jason Stanley, Sanmi Koyejo, Krishnamurthy Dvijotham,
- Abstract要約: 我々は、まずモデルに応答する前に有害な要求を拒否するよう訓練する新しい微調整攻撃を提案する。
この "refuse-then-comply" 戦略は浅い防御をバイパスし、出力フィルタを回避する有害な応答を生成する。
われわれの攻撃はOpenAIから2000ドルのバグ報奨金を受け、Anthhropicによって脆弱性として認識された。
- 参考スコア(独自算出の注目度): 22.667573777927203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading language model (LM) providers like OpenAI and Anthropic allow customers to fine-tune frontier LMs for specific use cases. To prevent abuse, these providers apply filters to block fine-tuning on overtly harmful data. In this setting, we make three contributions: First, while past work has shown that safety alignment is "shallow", we correspondingly demonstrate that existing fine-tuning attacks are shallow -- attacks target only the first several tokens of the model response, and consequently can be blocked by generating the first several response tokens with an aligned model. Second, we conceptually illustrate how to make attacks deeper by introducing a new fine-tuning attack that trains models to first refuse harmful requests before answering them; this "refuse-then-comply" strategy bypasses shallow defenses and produces harmful responses that evade output filters. Third, we demonstrate the potency of our new fine-tuning attack by jailbreaking both open-source models equipped with defenses and production models, achieving attack success rates of 57% and 72% against GPT-4o and Claude Haiku, respectively. Our attack received a $2000 bug bounty from OpenAI and was acknowledged as a vulnerability by Anthropic. Our work undermines the notion that models are safe because they initially refuse harmful requests and broadens awareness of the scope of attacks that face production fine-tuning APIs.
- Abstract(参考訳): OpenAI や Anthropic のような先進言語モデル (LM) プロバイダは,特定のユースケースに対してフロンティア LM を微調整することができる。
悪用を防ぐため、これらのプロバイダはフィルターを適用して、過度に有害なデータの微調整をブロックする。
この設定では、3つのコントリビューションを行います。 まず、過去の作業では安全性のアライメントが"浅かった"ことが示されていますが、既存の微調整アタックが浅く、 -- モデル応答の最初の数個のトークンのみを攻撃し、結果として、アライメントされたモデルで最初の数個の応答トークンを生成してブロックすることが可能です。
第2に,提案手法では,まず,まずモデルに応答する前に有害な要求を拒否するよう訓練する,新たな微調整攻撃を導入することで,攻撃をより深くする方法を概念的に説明する。
第3に,防衛および生産モデルを備えたオープンソースモデルの両方をジェイルブレイクし,GPT-4oとClaude Haikuに対してそれぞれ57%,72%の攻撃成功率を達成したことにより,新たな微調整攻撃の有効性を実証する。
われわれの攻撃はOpenAIから2000ドルのバグ報奨金を受け、Anthhropicによって脆弱性として認識された。
当社の作業は、有害な要求を最初に拒否し、プロダクションの微調整APIに直面する攻撃の範囲を広く認識するため、モデルが安全であるという考えを損なうものです。
関連論文リスト
- Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility [4.051777802443125]
本稿では、オープンウェイトやクローズドファインチューニングAPIを経由しても、有用なモデルを生成することができることを示す。
OpenAI、Google、およびAnthropicモデルはCBRNの支援、サイバー攻撃の実行、その他の犯罪活動の要求に完全に準拠する。
論文 参考訳(メタデータ) (2025-07-15T18:10:29Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization [0.0]
悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。
監督された微調整を狙った既存の防御は効果がない。
我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:18:48Z) - Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws [4.579553472774928]
我々は新しい攻撃パラダイムであるjailbreak-tuningを開発し、データ中毒とjailbreakを組み合わせ、最先端の保護を全面的にバイパスする。
悪意のある微調整、不完全なデータキュレーション、意図的なデータ汚染の3つの脅威モデルを評価する。
我々の実験では、より大きなLSMは、より小さなモデルよりも、有害なデータへの最小限の露出から有害な振る舞いを学習し、データ中毒にかなり敏感であることが判明した。
論文 参考訳(メタデータ) (2024-08-06T04:14:29Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。