論文の概要: ProDiF: Protecting Domain-Invariant Features to Secure Pre-Trained Models Against Extraction
- arxiv url: http://arxiv.org/abs/2503.13224v1
- Date: Mon, 17 Mar 2025 14:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:58.331206
- Title: ProDiF: Protecting Domain-Invariant Features to Secure Pre-Trained Models Against Extraction
- Title(参考訳): ProDiF: 事前訓練されたモデルの抽出に対する保護のために、ドメイン不変の機能を保護する
- Authors: Tong Zhou, Shijin Duan, Gaowen Liu, Charles Fleming, Ramana Rao Kompella, Shaolei Ren, Xiaolin Xu,
- Abstract要約: *ProDiF**は、ターゲットの重量空間操作を利用して、抽出攻撃に対して事前訓練されたモデルを保護する新しいフレームワークである。
双方向最適化により、適応的な微調整攻撃に対するレジリエンスが保証される。
この研究は、事前訓練されたモデルに対する包括的保護を提供し、モデルセキュリティに対する新しいアプローチとして重量空間操作の可能性を強調している。
- 参考スコア(独自算出の注目度): 23.021694081304812
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained models are valuable intellectual property, capturing both domain-specific and domain-invariant features within their weight spaces. However, model extraction attacks threaten these assets by enabling unauthorized source-domain inference and facilitating cross-domain transfer via the exploitation of domain-invariant features. In this work, we introduce **ProDiF**, a novel framework that leverages targeted weight space manipulation to secure pre-trained models against extraction attacks. **ProDiF** quantifies the transferability of filters and perturbs the weights of critical filters in unsecured memory, while preserving actual critical weights in a Trusted Execution Environment (TEE) for authorized users. A bi-level optimization further ensures resilience against adaptive fine-tuning attacks. Experimental results show that **ProDiF** reduces source-domain accuracy to near-random levels and decreases cross-domain transferability by 74.65\%, providing robust protection for pre-trained models. This work offers comprehensive protection for pre-trained DNN models and highlights the potential of weight space manipulation as a novel approach to model security.
- Abstract(参考訳): 事前訓練されたモデルは貴重な知的財産であり、その重み空間内でドメイン固有の特徴とドメイン不変の特徴の両方をキャプチャする。
しかし、モデル抽出攻撃は、未承認のソースドメイン推論を可能にし、ドメイン不変の機能の利用を通じてクロスドメイン転送を促進することで、これらの資産を脅かす。
本稿では, 対象の重み空間操作を利用して, 抽出攻撃に対する事前学習モデルを確保する新しいフレームワーク**ProDiF*を紹介する。
*ProDiF**は、認証されたユーザのためのTrusted Execution Environment(TEE)において実際のクリティカルウェイトを保持しながら、フィルタの転送可能性を定量化し、安全でないメモリにおけるクリティカルフィルタの重みを摂動する。
双方向最適化により、適応的な微調整攻撃に対するレジリエンスがさらに確保される。
実験の結果、**ProDiF**は、ソースドメインの精度をほぼランダムなレベルに下げ、クロスドメインの転送可能性を74.65\%削減し、事前訓練されたモデルに対する堅牢な保護を提供することがわかった。
この研究は、事前訓練されたDNNモデルに対する包括的保護を提供し、モデルセキュリティに対する新しいアプローチとして重量空間操作の可能性を強調している。
関連論文リスト
- Optimal Transport-Guided Source-Free Adaptation for Face Anti-Spoofing [58.56017169759816]
本稿では,テスト時に顔のアンチスプーフィングモデルをクライアント自身でターゲットドメインに適応させる新しい手法を提案する。
具体的には,プロトタイプベースモデルと最適トランスポート誘導型アダプタを開発した。
近年の手法と比較して、クロスドメインおよびクロスアタック設定では、HTERが19.17%、AUCが8.58%の平均相対的改善が達成されている。
論文 参考訳(メタデータ) (2025-03-29T06:10:34Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [38.7113305301502]
LookAhead Tuningは、微調整時のモデルの安全性の低下を軽減する。
2つの単純で低リソースで効果的なデータ駆動手法は、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Unsupervised Parameter Efficient Source-free Post-pretraining [52.27955794126508]
教師なしのUpStepを紹介します。
ソースドメインからターゲットドメインへのベースモデルを適応するための、ソースフリーのポストプレトレーニングアプローチ。
私たちは、Imagenetをベースモデルとして、教師付きおよび教師なしの両方でトレーニングされた、さまざまな一般的なバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2025-02-28T18:54:51Z) - PersGuard: Preventing Malicious Personalization via Backdoor Attacks on Pre-trained Text-to-Image Diffusion Models [51.458089902581456]
特定の画像の悪質なパーソナライズを防ぐ新しいバックドアベースのアプローチであるPersGuardを紹介する。
我々の手法は既存の技術よりも優れており、プライバシーと著作権保護に対するより堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-22T09:47:55Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning [8.61459170031022]
本稿では,PEFT-as-an-Attack(PaaA)と呼ばれる新たなセキュリティ脅威をFedPEFTに導入する。
PaaAの評価では、モデルのパラメータの1%未満がトレーニング可能であり、クライアントの少数のサブセットが悪意を持って行動しているため、LoRAなどの代表PEFT手法を用いて攻撃成功率が約80%に達することが判明した。
この結果から,FedPEFTパラダイムの安全性確保と性能維持を同時に行う,より効果的な防衛機構の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-28T19:05:01Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。