論文の概要: SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models
- arxiv url: http://arxiv.org/abs/2404.12699v1
- Date: Fri, 19 Apr 2024 08:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:45:58.847252
- Title: SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models
- Title(参考訳): SOPHON: 事前訓練モデルに対するタスク伝達性抑制のための非Fine-Tunable Learning
- Authors: Jiangyi Deng, Shengyuan Pang, Yanjiao Chen, Liangming Xia, Yijie Bai, Haiqin Weng, Wenyuan Xu,
- Abstract要約: 強力な事前訓練されたモデルは、非倫理的または違法なタスクに誤用される可能性がある。
先駆的な学習パラダイムであるNon-fine-tunable Learningを導入し、事前学習されたモデルが不適切なタスクに微調整されるのを防ぐ。
本稿では、予め定義された制限ドメインで微調整された場合に抵抗する、与えられた事前学習モデルを強化する保護フレームワークSOPHONを提案する。
- 参考スコア(独自算出の注目度): 19.41370590658815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of building deep learning models from scratch, developers are more and more relying on adapting pre-trained models to their customized tasks. However, powerful pre-trained models may be misused for unethical or illegal tasks, e.g., privacy inference and unsafe content generation. In this paper, we introduce a pioneering learning paradigm, non-fine-tunable learning, which prevents the pre-trained model from being fine-tuned to indecent tasks while preserving its performance on the original task. To fulfill this goal, we propose SOPHON, a protection framework that reinforces a given pre-trained model to be resistant to being fine-tuned in pre-defined restricted domains. Nonetheless, this is challenging due to a diversity of complicated fine-tuning strategies that may be adopted by adversaries. Inspired by model-agnostic meta-learning, we overcome this difficulty by designing sophisticated fine-tuning simulation and fine-tuning evaluation algorithms. In addition, we carefully design the optimization process to entrap the pre-trained model within a hard-to-escape local optimum regarding restricted domains. We have conducted extensive experiments on two deep learning modes (classification and generation), seven restricted domains, and six model architectures to verify the effectiveness of SOPHON. Experiment results verify that fine-tuning SOPHON-protected models incurs an overhead comparable to or even greater than training from scratch. Furthermore, we confirm the robustness of SOPHON to three fine-tuning methods, five optimizers, various learning rates and batch sizes. SOPHON may help boost further investigations into safe and responsible AI.
- Abstract(参考訳): 開発者は、スクラッチからディープラーニングモデルを構築する代わりに、トレーニング済みのモデルをカスタマイズされたタスクに適応することにますます依存しています。
しかし、強力な事前訓練されたモデルは、例えばプライバシー推論や安全でないコンテンツ生成など、非倫理的または違法なタスクに誤用される可能性がある。
本稿では,学習の先駆的パラダイムであるNon-fine-tunable Learningを導入し,事前学習されたモデルが,本来のタスクの性能を維持しつつ,不適切なタスクに微調整されることを防止する。
この目的を達成するために、予め定義された制限ドメインで微調整されたことに抵抗する、与えられた事前学習モデルを強化する保護フレームワークSOPHONを提案する。
それでも、敵に採用されるかもしれない複雑な微調整戦略の多様性のため、これは難しい。
モデルに依存しないメタラーニングにインスパイアされた我々は、洗練された微調整シミュレーションと微調整評価アルゴリズムを設計することで、この難しさを克服する。
さらに,制約領域に関する局所最適化の難易度内で,事前学習したモデルを取り込むための最適化プロセスを慎重に設計する。
我々は、SOPHONの有効性を検証するために、2つのディープラーニングモード(分類と生成)、7つの制限されたドメイン、6つのモデルアーキテクチャについて広範な実験を行った。
実験結果は、微調整SOPHONで保護されたモデルが、スクラッチからのトレーニングに匹敵する、あるいはそれ以上のオーバーヘッドを引き起こすことを検証した。
さらに,SOPHONの堅牢性を3つの微調整方法,5つのオプティマイザ,各種学習率,バッチサイズに検証する。
SOPHONは、安全で責任のあるAIに関するさらなる調査を促進するのに役立つかもしれない。
関連論文リスト
- Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving [33.90341803416033]
エンドツーエンドの自律運転モデルのためのモジュールワイド適応適応適応訓練(MA2T)を提案する。
本稿では,異なるモジュールが入力される前にノイズを注入するモジュールワイドノイズインジェクションについて紹介する。
また,各モジュールの損失重みを適応的に学習・調整するために,蓄積した重み変化を組み込んだ動的重み蓄積適応を導入する。
論文 参考訳(メタデータ) (2024-09-11T15:00:18Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Exploring Transferability for Randomized Smoothing [37.60675615521106]
本稿では,頑健なモデルを事前学習する手法を提案する。
クリーンな画像のみを微調整しても、驚くほど強力な認証精度が得られます。
論文 参考訳(メタデータ) (2023-12-14T15:08:27Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。