論文の概要: ProDiF: Protecting Domain-Invariant Features to Secure Pre-Trained Models Against Extraction
- arxiv url: http://arxiv.org/abs/2503.13224v1
- Date: Mon, 17 Mar 2025 14:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:30.894917
- Title: ProDiF: Protecting Domain-Invariant Features to Secure Pre-Trained Models Against Extraction
- Title(参考訳): ProDiF: 事前訓練されたモデルの抽出に対する保護のために、ドメイン不変の機能を保護する
- Authors: Tong Zhou, Shijin Duan, Gaowen Liu, Charles Fleming, Ramana Rao Kompella, Shaolei Ren, Xiaolin Xu,
- Abstract要約: *ProDiF**は、ターゲットの重量空間操作を利用して、抽出攻撃に対して事前訓練されたモデルを保護する新しいフレームワークである。
双方向最適化により、適応的な微調整攻撃に対するレジリエンスが保証される。
この研究は、事前訓練されたモデルに対する包括的保護を提供し、モデルセキュリティに対する新しいアプローチとして重量空間操作の可能性を強調している。
- 参考スコア(独自算出の注目度): 23.021694081304812
- License:
- Abstract: Pre-trained models are valuable intellectual property, capturing both domain-specific and domain-invariant features within their weight spaces. However, model extraction attacks threaten these assets by enabling unauthorized source-domain inference and facilitating cross-domain transfer via the exploitation of domain-invariant features. In this work, we introduce **ProDiF**, a novel framework that leverages targeted weight space manipulation to secure pre-trained models against extraction attacks. **ProDiF** quantifies the transferability of filters and perturbs the weights of critical filters in unsecured memory, while preserving actual critical weights in a Trusted Execution Environment (TEE) for authorized users. A bi-level optimization further ensures resilience against adaptive fine-tuning attacks. Experimental results show that **ProDiF** reduces source-domain accuracy to near-random levels and decreases cross-domain transferability by 74.65\%, providing robust protection for pre-trained models. This work offers comprehensive protection for pre-trained DNN models and highlights the potential of weight space manipulation as a novel approach to model security.
- Abstract(参考訳): 事前訓練されたモデルは貴重な知的財産であり、その重み空間内でドメイン固有の特徴とドメイン不変の特徴の両方をキャプチャする。
しかし、モデル抽出攻撃は、未承認のソースドメイン推論を可能にし、ドメイン不変の機能の利用を通じてクロスドメイン転送を促進することで、これらの資産を脅かす。
本稿では, 対象の重み空間操作を利用して, 抽出攻撃に対する事前学習モデルを確保する新しいフレームワーク**ProDiF*を紹介する。
*ProDiF**は、認証されたユーザのためのTrusted Execution Environment(TEE)において実際のクリティカルウェイトを保持しながら、フィルタの転送可能性を定量化し、安全でないメモリにおけるクリティカルフィルタの重みを摂動する。
双方向最適化により、適応的な微調整攻撃に対するレジリエンスがさらに確保される。
実験の結果、**ProDiF**は、ソースドメインの精度をほぼランダムなレベルに下げ、クロスドメインの転送可能性を74.65\%削減し、事前訓練されたモデルに対する堅牢な保護を提供することがわかった。
この研究は、事前訓練されたDNNモデルに対する包括的保護を提供し、モデルセキュリティに対する新しいアプローチとして重量空間操作の可能性を強調している。
関連論文リスト
- PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning [8.61459170031022]
本稿では,PEFT-as-an-Attack(PaaA)と呼ばれる新たなセキュリティ脅威をFedPEFTに導入する。
PaaAの評価では、モデルのパラメータの1%未満がトレーニング可能であり、クライアントの少数のサブセットが悪意を持って行動しているため、LoRAなどの代表PEFT手法を用いて攻撃成功率が約80%に達することが判明した。
この結果から,FedPEFTパラダイムの安全性確保と性能維持を同時に行う,より効果的な防衛機構の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-28T19:05:01Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - Cyclically Disentangled Feature Translation for Face Anti-spoofing [61.70377630461084]
循環不整合特徴変換ネットワーク(CDFTN)と呼ばれる新しい領域適応手法を提案する。
CDFTNは、(1)ソースドメイン不変の生長特徴と2)ドメイン固有のコンテンツ特徴とを持つ擬似ラベル付きサンプルを生成する。
ソースドメインラベルの監督の下で、合成擬似ラベル付き画像に基づいてロバスト分類器を訓練する。
論文 参考訳(メタデータ) (2022-12-07T14:12:34Z) - Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive
Diffusion [70.60038549155485]
ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。
本稿では,適応強度推定器と拡散モデルを用いて,プリスタンデータ分布を再構築できる新しい歪み認識型防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:32:43Z) - Variational Model Perturbation for Source-Free Domain Adaptation [64.98560348412518]
確率的枠組みにおける変分ベイズ推定によるモデルパラメータの摂動を導入する。
本研究では,ベイズニューラルネットワークの学習と理論的関連性を実証し,目的領域に対する摂動モデルの一般化可能性を示す。
論文 参考訳(メタデータ) (2022-10-19T08:41:19Z) - Cross-domain Cross-architecture Black-box Attacks on Fine-tuned Models
with Transferred Evolutionary Strategies [41.49982803774183]
微調整は敵の攻撃に対して脆弱である。
本稿では,2つの新しいBAFT設定(クロスドメインとクロスドメインクロスアーキテクチャBAFT)を提案する。
提案手法は,細調整されたモデルに対して効果的かつ効率的に攻撃できることを示す。
論文 参考訳(メタデータ) (2022-08-28T09:23:56Z) - Generative Domain Adaptation for Face Anti-Spoofing [38.12738183385737]
教師なしドメイン適応(UDA)に基づくアンチスプーフィングアプローチは、ターゲットシナリオに対する有望なパフォーマンスのために注目を集めている。
既存のUDA FASメソッドは、通常、セマンティックな高レベルの機能の分布を整列することで、トレーニングされたモデルをターゲットドメインに適合させる。
対象データをモデルに直接適合させ、画像翻訳により対象データをソースドメインスタイルにスタイリングし、さらに、訓練済みのソースモデルにスタイリングされたデータを入力して分類する、UDA FASの新しい視点を提案する。
論文 参考訳(メタデータ) (2022-07-20T16:24:57Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Domain Adaptive Object Detection via Asymmetric Tri-way Faster-RCNN [15.976076198305414]
対象ドメインがラベルに依存しない状態で、ソースドメインがラベルリッチであるドメイン間の格差を低減するために、教師なしドメイン適応オブジェクト検出を提案する。
主ネットと独立補助ネットからなる非対称構造は、本質的に、刺激されたソースリスク崩壊のパラメータを共有することを克服する。
提案したAFF検出器の適応が保証される。
論文 参考訳(メタデータ) (2020-07-03T09:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。