論文の概要: Undistillable: Making A Nasty Teacher That CANNOT teach students
- arxiv url: http://arxiv.org/abs/2105.07381v1
- Date: Sun, 16 May 2021 08:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:25:53.657353
- Title: Undistillable: Making A Nasty Teacher That CANNOT teach students
- Title(参考訳): 未蒸留:生徒に教えられない厄介な教師を作る
- Authors: Haoyu Ma, Tianlong Chen, Ting-Kuei Hu, Chenyu You, Xiaohui Xie,
Zhangyang Wang
- Abstract要約: 本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 84.6111281091602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a widely used technique to transfer knowledge
from pre-trained teacher models to (usually more lightweight) student models.
However, in certain situations, this technique is more of a curse than a
blessing. For instance, KD poses a potential risk of exposing intellectual
properties (IPs): even if a trained machine learning model is released in
'black boxes' (e.g., as executable software or APIs without open-sourcing
code), it can still be replicated by KD through imitating input-output
behaviors. To prevent this unwanted effect of KD, this paper introduces and
investigates a concept called Nasty Teacher: a specially trained teacher
network that yields nearly the same performance as a normal one, but would
significantly degrade the performance of student models learned by imitating
it. We propose a simple yet effective algorithm to build the nasty teacher,
called self-undermining knowledge distillation. Specifically, we aim to
maximize the difference between the output of the nasty teacher and a normal
pre-trained network. Extensive experiments on several datasets demonstrate that
our method is effective on both standard KD and data-free KD, providing the
desirable KD-immunity to model owners for the first time. We hope our
preliminary study can draw more awareness and interest in this new practical
problem of both social and legal importance.
- Abstract(参考訳): 知識蒸留(英: knowledge distillation, kd)は、教師モデルから(通常より軽量な)生徒モデルへ知識を移す手法である。
しかし、ある場面では、この技は祝福というよりは呪いである。
例えば、KDは知的財産権(IP)を暴露する可能性があり、たとえ訓練された機械学習モデルを'ブラックボックス'(例えば、オープンソースコードのない実行可能なソフトウェアやAPI)でリリースしても、入力出力の振る舞いを模倣してKDによって複製することができる。
このKDの不要な影響を避けるため、本研究では、通常の教師ネットワークとほぼ同等の性能を持つ特別に訓練された教師ネットワークである「ナスティ教師(Nasty Teacher)」という概念を紹介し、検討する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
具体的には,教師の出力と通常の事前学習ネットワークとの差を最大化することを目的としている。
いくつかのデータセットにおいて,本手法が標準KDとデータフリーKDの両方に有効であることを示し,モデル所有者に好適なKD免疫を提供する。
われわれの予備研究は、社会的および法的に重要な、この新しい実用的問題に対する認識と関心をより高めることを願っている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Talking Models: Distill Pre-trained Knowledge to Downstream Models via
Interactive Communication [25.653517213641575]
我々は、下流の課題の学生が事前学習された基礎モデルから効果的に学習するのに役立つ対話型コミュニケーションプロセスを開発する。
私たちのデザインは、学生のニーズを満たす方法で知識を説明することができる教師から、人間が学ぶ方法にインスピレーションを受けています。
論文 参考訳(メタデータ) (2023-10-04T22:22:21Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。