論文の概要: CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.16559v1
- Date: Thu, 22 May 2025 11:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.261673
- Title: CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning
- Title(参考訳): CTRAP: 大規模な言語モデルを有害な微調整から保護するために、崩壊トラップを埋め込む
- Authors: Biao Yi, Tiansheng Huang, Baolei Zhang, Tong Li, Lihai Nie, Zheli Liu, Li Shen,
- Abstract要約: ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
- 参考スコア(独自算出の注目度): 12.293101110323722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning-as-a-service, while commercially successful for Large Language Model (LLM) providers, exposes models to harmful fine-tuning attacks. As a widely explored defense paradigm against such attacks, unlearning attempts to remove malicious knowledge from LLMs, thereby essentially preventing them from being used to perform malicious tasks. However, we highlight a critical flaw: the powerful general adaptability of LLMs allows them to easily bypass selective unlearning by rapidly relearning or repurposing their capabilities for harmful tasks. To address this fundamental limitation, we propose a paradigm shift: instead of selective removal, we advocate for inducing model collapse--effectively forcing the model to "unlearn everything"--specifically in response to updates characteristic of malicious adaptation. This collapse directly neutralizes the very general capabilities that attackers exploit, tackling the core issue unaddressed by selective unlearning. We introduce the Collapse Trap (CTRAP) as a practical mechanism to implement this concept conditionally. Embedded during alignment, CTRAP pre-configures the model's reaction to subsequent fine-tuning dynamics. If updates during fine-tuning constitute a persistent attempt to reverse safety alignment, the pre-configured trap triggers a progressive degradation of the model's core language modeling abilities, ultimately rendering it inert and useless for the attacker. Crucially, this collapse mechanism remains dormant during benign fine-tuning, ensuring the model's utility and general capabilities are preserved for legitimate users. Extensive empirical results demonstrate that CTRAP effectively counters harmful fine-tuning risks across various LLMs and attack settings, while maintaining high performance in benign scenarios. Our code is available at https://anonymous.4open.science/r/CTRAP.
- Abstract(参考訳): ファインチューニング・アズ・ア・サービス(英語版)は、Large Language Model (LLM) プロバイダで商業的に成功したが、有害なファインチューニング攻撃に対してモデルを公開している。
このような攻撃に対する防御パラダイムとして、未学習はLLMから悪意のある知識を取り除こうとする。
LLMの強力な一般適応性は、有害なタスクに対する能力の迅速な再学習や再調達によって、選択的アンラーニングを容易に回避することができる。
この基本的な制限に対処するために、我々はパラダイムシフトを提案する: 選択的除去の代わりに、モデル崩壊を誘発することを提唱する - 悪質な適応の特徴のある更新に応じて、モデルが「全てを解放する」ことを効果的に強制する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和し、選択的なアンラーニングによって修正されていないコア問題に対処する。
我々は,CTRAP(Collapse Trap)を,この概念を条件付きで実装するための実践的なメカニズムとして紹介する。
CTRAPはアライメント中に組み込まれ、後続の微調整ダイナミクスに対するモデルの反応を事前設定する。
微調整中の更新が安全アライメントを反転させる永続的な試みである場合、事前設定されたトラップはモデルのコア言語モデリング能力を段階的に劣化させ、最終的に攻撃者にとって不必要で役に立たないものにする。
重要なことに、この崩壊メカニズムは、良質な微調整の間も休眠状態のままであり、モデルの実用性と一般的な機能は、正統なユーザのために維持される。
CTRAPは様々なLSMやアタック設定にまたがる有害な微調整リスクを効果的に抑制し、良質なシナリオでは高い性能を維持する。
私たちのコードはhttps://anonymous.4open.science/r/CTRAP.comで公開されています。
関連論文リスト
- Finetuning-Activated Backdoors in LLMs [2.9373912230684565]
オープンにアクセス可能なLarge Language Models (LLM) は、タスク固有のパフォーマンス改善を実現するための標準的なプラクティスとなっている。
これまで、微調整は、良質なデータセットのトレーニングが予測可能な振る舞いをもたらす、制御されたセキュアなプロセスとみなされてきた。
敵が最初に毒を盛ったLSMを作成できるのは初めてであり、最初は悪質に見えるが、下流のユーザーによって微調整された悪質な行動を示す。
論文 参考訳(メタデータ) (2025-05-22T11:59:44Z) - Self-Destructive Language Model [13.808746955144771]
有害な微調整攻撃は、大規模言語モデル(LLM)のセキュリティに大きな脅威をもたらす
本報告では,LEMを自己破壊モデルに変換するアライメント・エンハンス・ディフェンスであるSEAMについて紹介する。
論文 参考訳(メタデータ) (2025-05-18T01:08:18Z) - A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。
本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。
また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。