論文の概要: One Step to the Side: Why Defenses Against Malicious Finetuning Fail Under Adaptive Adversaries
- arxiv url: http://arxiv.org/abs/2605.14605v1
- Date: Thu, 14 May 2026 09:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.74751
- Title: One Step to the Side: Why Defenses Against Malicious Finetuning Fail Under Adaptive Adversaries
- Title(参考訳): 悪質なファインタニングに対する防御が、適応的な敵の手に委ねられる理由
- Authors: Itay Zloczower, Eyal Lenga, Gilad Gressel, Yisroel Mirsky,
- Abstract要約: モデルプロバイダはますますオープンウェイトをリリースし、APIを通じてファンデーションモデルを微調整できるようにする。
近年の防衛は、このような悪質な微調整に対してモデルを堅牢にすることを目的としているが、それらは、防御を考慮しない固定攻撃に対してのみ評価されている。
これらのロバスト性主張は不完全であることを示す。
最近の15の防衛策を調査した結果、いくつかの防御機構を特定し、それらが単一の弱点を共有していることが判明した。
そして、全ての防御機構をまたぐ防御を破る統一的な適応攻撃を開発する。
- 参考スコア(独自算出の注目度): 2.657356138730743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model providers increasingly release open weights or allow users to fine-tune foundation models through APIs. Although these models are safety-aligned before release, their safeguards can often be removed by fine-tuning on harmful data. Recent defenses aim to make models robust to such malicious fine-tuning, but they are largely evaluated only against fixed attacks that do not account for the defense. We show that these robustness claims are incomplete. Surveying 15 recent defenses, we identify several defense mechanisms and show that they share a single weakness: they obscure or misdirect the path to harmful behavior without removing the behavior itself. We then develop a unified adaptive attack that breaks defenses across all defense mechanisms. Our results show that current approaches do not provide robust security; they mainly stop the attacks they were designed against. We hope that our unified adaptive adversary for this domain will help future researchers and practitioners stress-test new defenses before deployment.
- Abstract(参考訳): モデルプロバイダはますますオープンウェイトをリリースし、APIを通じてファンデーションモデルを微調整できるようにする。
これらのモデルはリリース前に安全に整合しているものの、有害なデータを微調整することで保護を除去することができる。
近年の防衛は、このような悪質な微調整に対してモデルを堅牢にすることを目的としているが、それらは、防御を考慮しない固定攻撃に対してのみ評価されている。
これらのロバスト性主張は不完全であることを示す。
最近の15の防衛策を調査した結果、いくつかの防御機構を特定し、それらが単一の弱点を共有していることが判明した。
そして、全ての防御機構をまたぐ防御を破る統一的な適応攻撃を開発する。
以上の結果から,現在のアプローチは堅牢なセキュリティを提供していないことが明らかとなった。
このドメインに対する我々の統一的な適応的敵は、将来の研究者や実践者がデプロイ前に新しい防御をストレステストするのに役立つことを期待しています。
関連論文リスト
- The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Boosting Active Defense Persistence: A Two-Stage Defense Framework Combining Interruption and Poisoning Against Deepfake [14.10448497174767]
我々は、効果的な防御が偽のコンテンツを歪ませるだけでなく、モデルが適応する能力を阻害すると主張している。
これを実現するために,革新的な2段階防衛フレームワーク(TSDF)を提案する。
我々のフレームワークは、アクティブディフェンスの持続性を向上できる強力なデュアルディフェンス能力を示している。
論文 参考訳(メタデータ) (2025-08-11T09:26:48Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Fundamental Limitations in Pointwise Defences of LLM Finetuning APIs [56.84338097581665]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Can Safety Fine-Tuning Be More Principled? Lessons Learned from Cybersecurity [46.83576558654259]
私たちは、現在の安全性の微調整は、サイバーセキュリティにおける攻撃者とディフェンダーの間の伝統的なキャット・アンド・ムースゲームと非常によく似ていると論じています。
我々は、新しい敵のジェイルブレイク攻撃、報酬のハッキング、制御問題の喪失を防ぐために、現在の防御が不十分であることを示す。
論文 参考訳(メタデータ) (2025-01-19T21:49:42Z) - Randomness in ML Defenses Helps Persistent Attackers and Hinders
Evaluators [49.52538232104449]
堅牢なMLディフェンスを設計することがますます重要になっている。
近年の研究では、当初最先端の攻撃に抵抗する多くの防衛は、適応的な敵によって破壊される可能性があることが判明している。
我々は、防御設計をシンプルにし、ホワイトボックスの防御は可能な限りランダム性を損なうべきだと論じる。
論文 参考訳(メタデータ) (2023-02-27T01:33:31Z) - What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors [57.040948169155925]
敵対的なトレーニングフレームワークを拡張し、(訓練時間)中毒やバックドア攻撃から防御します。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2021-02-26T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。