論文の概要: Probe-Me-Not: Protecting Pre-trained Encoders from Malicious Probing
- arxiv url: http://arxiv.org/abs/2411.12508v1
- Date: Tue, 19 Nov 2024 13:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:00.379733
- Title: Probe-Me-Not: Protecting Pre-trained Encoders from Malicious Probing
- Title(参考訳): Probe-Me-Not: トレーニング済みのエンコーダを悪意のある調査から保護する
- Authors: Ruyi Ding, Tong Zhou, Lili Su, Aidong Adam Ding, Xiaolin Xu, Yunsi Fei,
- Abstract要約: トレーニング済みのディープラーニングモデルをカスタマイズしたタスクに適応させることは、開発者にとって一般的な選択である。
事前訓練されたエンコーダ上で下流のヘッドをトレーニングする探索は、転写学習において広く採用されている。
このような訓練済みエンコーダの一般化性は、有害な意図に対する探索の潜在的な誤用に関する懸念を提起する。
我々は、トレーニング済みのエンコーダを悪意のある探索から保護するために設計された、新しい適用性認証手法であるLockを紹介した。
- 参考スコア(独自算出の注目度): 14.290156958543845
- License:
- Abstract: Adapting pre-trained deep learning models to customized tasks has become a popular choice for developers to cope with limited computational resources and data volume. More specifically, probing--training a downstream head on a pre-trained encoder--has been widely adopted in transfer learning, which helps to prevent overfitting and catastrophic forgetting. However, such generalizability of pre-trained encoders raises concerns about the potential misuse of probing for harmful intentions, such as discriminatory speculation and warfare applications. In this work, we introduce EncoderLock, a novel applicability authorization method designed to protect pre-trained encoders from malicious probing, i.e., yielding poor performance on specified prohibited domains while maintaining their utility in authorized ones. Achieving this balance is challenging because of the opposite optimization objectives and the variety of downstream heads that adversaries can utilize adaptively. To address these challenges, EncoderLock employs two techniques: domain-aware weight selection and updating to restrict applications on prohibited domains/tasks, and self-challenging training scheme that iteratively strengthens resistance against any potential downstream classifiers that adversaries may apply. Moreover, recognizing the potential lack of data from prohibited domains in practical scenarios, we introduce three EncoderLock variants with different levels of data accessibility: supervised (prohibited domain data with labels), unsupervised (prohibited domain data without labels), and zero-shot (no data or labels available). We verify EncoderLock's effectiveness and practicality with a real-world pre-trained Vision Transformer (ViT) encoder from Facebook. These results underscore the valuable contributions EncoderLock brings to the development of responsible AI.
- Abstract(参考訳): トレーニング済みのディープラーニングモデルをカスタマイズされたタスクに適応させることは、限られた計算リソースとデータボリュームを扱う開発者にとって一般的な選択となっている。
より具体的には、事前訓練されたエンコーダで下流のヘッドをトレーニングする ― は、過度な適合や破滅的な忘れ込みを防ぐために、転写学習に広く採用されている。
しかし、事前訓練されたエンコーダのこのような一般化性は、差別的投機や軍事的応用のような有害な意図に対する調査の誤用の可能性への懸念を提起する。
本研究では,未学習のエンコーダを悪質な保護から保護するために設計された新しい適用性認証手法であるEncoderLockを紹介する。
このバランスを達成することは、反対の最適化目標と、敵が適応的に利用できる下流ヘッドの多様性のために困難である。
これらの課題に対処するため、EncoderLockはドメイン対応のウェイトセレクションと、禁止されたドメイン/タスクのアプリケーションを制限する更新と、敵が適用できる可能性のある下流分類器に対する抵抗を反復的に強化する自己修復トレーニングスキームの2つの手法を採用している。
さらに,データアクセシビリティのレベルが異なる3つのEncoderLockバリアント(ラベル付きドメインデータ),教師なし(ラベルなしドメインデータ),ゼロショット(ラベルなしドメインデータ,ラベルなし)を導入する。
本研究では,FacebookのViTエンコーダを用いて,EncoderLockの有効性と実用性を検証する。
これらの結果は、EncoderLockが責任あるAIの開発にもたらす貴重な貢献を裏付けるものだ。
関連論文リスト
- Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。
学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文 参考訳(メタデータ) (2024-04-22T09:29:14Z) - Securely Fine-tuning Pre-trained Encoders Against Adversarial Examples [28.947545367473086]
本稿では,下流モデルのロバスト性向上を目的とした2段階逆微調整手法を提案する。
Gen-AFは最先端のDAEに対して高い試験精度と堅牢な試験精度を達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-16T04:23:46Z) - Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in
Contrastive Learning [69.70602220716718]
コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。
特に、攻撃者は未ラベルの事前訓練データに慎重に毒を盛った入力を注入する。
我々は,PoisonedEncoderに対する5つの防御効果を評価し,前処理が1つ,内処理が3つ,後処理が1つであった。
論文 参考訳(メタデータ) (2022-05-13T00:15:44Z) - Watermarking Pre-trained Encoders in Contrastive Learning [9.23485246108653]
事前訓練されたエンコーダは、慎重に保護される必要がある重要な知的財産である。
既存の透かし技法を分類タスクから対照的な学習シナリオに移行することは困難である。
本稿では,エンコーダの裏口をウォーターマークとして効果的に埋め込むタスク非依存の損失関数を提案する。
論文 参考訳(メタデータ) (2022-01-20T15:14:31Z) - StolenEncoder: Stealing Pre-trained Encoders [62.02156378126672]
我々は、事前訓練された画像エンコーダを盗むStolenEncoderと呼ばれる最初の攻撃を提案する。
以上の結果から,StolenEncoderが盗んだエンコーダは,ターゲットエンコーダと同じような機能を持つことがわかった。
論文 参考訳(メタデータ) (2022-01-15T17:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。