論文の概要: Self-Destructing Models: Increasing the Costs of Harmful Dual Uses in
Foundation Models
- arxiv url: http://arxiv.org/abs/2211.14946v1
- Date: Sun, 27 Nov 2022 21:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:33:20.083025
- Title: Self-Destructing Models: Increasing the Costs of Harmful Dual Uses in
Foundation Models
- Title(参考訳): 自己破壊モデル:基礎モデルにおける有害なデュアル使用コストの増加
- Authors: Eric Mitchell, Peter Henderson, Christopher D. Manning, Dan Jurafsky,
Chelsea Finn
- Abstract要約: オープンソースのファンデーションモデルは、有害な機械学習システムと有益な機械学習システムの両方を構築するコストを無差別に削減する、明確な二重利用リスクをもたらす。
本稿では、有害なタスクへの適応を阻害する追加のメカニズムで基礎モデルを訓練するタスクブロッキングパラダイムを提案する。
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 103.71308117592963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing ecosystem of large, open-source foundation models has reduced the
labeled data and technical expertise necessary to apply machine learning to
many new problems. Yet foundation models pose a clear dual-use risk,
indiscriminately reducing the costs of building both harmful and beneficial
machine learning systems. To mitigate this risk, we propose the task blocking
paradigm, in which foundation models are trained with an additional mechanism
to impede adaptation to harmful tasks while retaining good performance on
desired tasks. We call the resulting models self-destructing models, inspired
by mechanisms that prevent adversaries from using tools for harmful purposes.
We present an algorithm for training self-destructing models leveraging
techniques from meta-learning and adversarial learning, showing that it can
largely prevent a BERT-based model from learning to perform gender
identification without harming the model's ability to perform profession
classification. We conclude with a discussion of future directions.
- Abstract(参考訳): 大規模でオープンソースのファンデーションモデルのエコシステムは、多くの新しい問題に機械学習を適用するために必要なラベル付きデータと技術的専門知識を減らした。
しかし、基礎モデルは明らかな二重利用リスクをもたらし、有害かつ有益な機械学習システムを構築するコストを無差別に削減する。
このリスクを軽減するため、基礎モデルに有害なタスクへの適応を阻害し、望ましいタスクに良好なパフォーマンスを保ちながら追加のメカニズムを訓練するタスクブロッキングパラダイムを提案する。
敵が有害な目的のためにツールを使用するのを防ぐメカニズムに触発された、結果のモデルを自己破壊モデルと呼んでいる。
本稿では,メタラーニングや敵対的学習の手法を活用した自己破壊モデル学習のためのアルゴリズムを提案する。
我々は今後の方向性について議論する。
関連論文リスト
- Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Stealing Deep Reinforcement Learning Models for Fun and Profit [33.64948529132546]
本稿では,Deep Reinforcement Learning (DRL) に対する最初のモデル抽出攻撃を提案する。
これにより、外部の敵は環境との相互作用からのみブラックボックスDRLモデルを正確に回復することができる。
論文 参考訳(メタデータ) (2020-06-09T03:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。