論文の概要: Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models
- arxiv url: http://arxiv.org/abs/2211.14946v2
- Date: Wed, 9 Aug 2023 00:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 18:08:13.090709
- Title: Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models
- Title(参考訳): 自己破壊モデル--基礎モデルの有害な二重利用コストの増大
- Authors: Peter Henderson, Eric Mitchell, Christopher D. Manning, Dan Jurafsky,
Chelsea Finn
- Abstract要約: 本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
- 参考スコア(独自算出の注目度): 103.71308117592963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing ecosystem of large, open-source foundation models has reduced the
labeled data and technical expertise necessary to apply machine learning to
many new problems. Yet foundation models pose a clear dual-use risk,
indiscriminately reducing the costs of building both harmful and beneficial
machine learning systems. Policy tools such as restricted model access and
export controls are the primary methods currently used to mitigate such
dual-use risks. In this work, we review potential safe-release strategies and
argue that both policymakers and AI researchers would benefit from
fundamentally new technologies enabling more precise control over the
downstream usage of open-source foundation models. We propose one such
approach: the task blocking paradigm, in which foundation models are trained
with an additional mechanism to impede adaptation to harmful tasks without
sacrificing performance on desirable tasks. We call the resulting models
self-destructing models, inspired by mechanisms that prevent adversaries from
using tools for harmful purposes. We present an algorithm for training
self-destructing models leveraging techniques from meta-learning and
adversarial learning, which we call meta-learned adversarial censoring (MLAC).
In a small-scale experiment, we show MLAC can largely prevent a BERT-style
model from being re-purposed to perform gender identification without harming
the model's ability to perform profession classification.
- Abstract(参考訳): 大規模でオープンソースのファンデーションモデルのエコシステムは、多くの新しい問題に機械学習を適用するために必要なラベル付きデータと技術的専門知識を減らした。
しかし、基礎モデルは明らかな二重利用リスクをもたらし、有害かつ有益な機械学習システムを構築するコストを無差別に削減する。
制限されたモデルアクセスやエクスポート制御のようなポリシーツールは、これらのデュアルユースリスクを軽減するために現在使われている主要な方法である。
本稿では,安全リリース戦略の可能性について検討し,オープンソース基盤モデルの下流利用をより正確に制御できる,基本的な新しい技術から,政策立案者とai研究者の両方が恩恵を受ける,と論じる。
基礎となるモデルに有害なタスクへの適応を阻害するメカニズムを付加し、望ましいタスクのパフォーマンスを犠牲にすることなく学習するタスクブロッキングパラダイムを提案する。
敵が有害な目的のためにツールを使用するのを防ぐメカニズムに触発された、結果のモデルを自己破壊モデルと呼んでいる。
本稿では,メタ学習と敵対的学習の手法を活用した自己破壊モデル学習のためのアルゴリズムを提案する。
小規模実験において,mlacは,職業分類を行うモデルの能力を損なうことなく,bert型モデルが性別識別に再利用されることをほとんど防げることを示した。
関連論文リスト
- Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Stealing Deep Reinforcement Learning Models for Fun and Profit [33.64948529132546]
本稿では,Deep Reinforcement Learning (DRL) に対する最初のモデル抽出攻撃を提案する。
これにより、外部の敵は環境との相互作用からのみブラックボックスDRLモデルを正確に回復することができる。
論文 参考訳(メタデータ) (2020-06-09T03:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。