論文の概要: Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data
- arxiv url: http://arxiv.org/abs/2110.15094v1
- Date: Wed, 27 Oct 2021 13:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 08:03:11.828562
- Title: Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data
- Title(参考訳): Mosaicking to Distill: ドメイン外のデータからの知識蒸留
- Authors: Gongfan Fang, Yifan Bao, Jie Song, Xinchao Wang, Donglin Xie,
Chengchao Shen, Mingli Song
- Abstract要約: 知識蒸留(KD)は,対象領域における教師の行動を模倣する,コンパクトな学生モデルを構築することを目的としている。
私たちは、astextitMosaicKDと呼ばれる便利だが驚くほど効果的なアプローチを導入しました。
モザイクKDでは、ジェネレータ、識別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。
- 参考スコア(独自算出の注目度): 56.29595334715237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation~(KD) aims to craft a compact student model that
imitates the behavior of a pre-trained teacher in a target domain. Prior KD
approaches, despite their gratifying results, have largely relied on the
premise that \emph{in-domain} data is available to carry out the knowledge
transfer. Such an assumption, unfortunately, in many cases violates the
practical setting, since the original training data or even the data domain is
often unreachable due to privacy or copyright reasons. In this paper, we
attempt to tackle an ambitious task, termed as \emph{out-of-domain} knowledge
distillation~(OOD-KD), which allows us to conduct KD using only OOD data that
can be readily obtained at a very low cost. Admittedly, OOD-KD is by nature a
highly challenging task due to the agnostic domain gap. To this end, we
introduce a handy yet surprisingly efficacious approach, dubbed
as~\textit{MosaicKD}. The key insight behind MosaicKD lies in that, samples
from various domains share common local patterns, even though their global
semantic may vary significantly; these shared local patterns, in turn, can be
re-assembled analogous to mosaic tiling, to approximate the in-domain data and
to further alleviating the domain discrepancy. In MosaicKD, this is achieved
through a four-player min-max game, in which a generator, a discriminator, a
student network, are collectively trained in an adversarial manner, partially
under the guidance of a pre-trained teacher. We validate MosaicKD over
{classification and semantic segmentation tasks} across various benchmarks, and
demonstrate that it yields results much superior to the state-of-the-art
counterparts on OOD data. Our code is available at
\url{https://github.com/zju-vipa/MosaicKD}.
- Abstract(参考訳): knowledge distillation~(kd)の目的は、対象領域で事前訓練された教師の行動を模倣するコンパクトな学生モデルを作ることである。
これまでのKDアプローチは、満足な結果にもかかわらず、知識伝達を行うために \emph{in- domain} データが利用できるという前提に大きく依存していた。
このような仮定は、多くの場合、元々のトレーニングデータやデータドメインでさえ、プライバシや著作権上の理由から取得できないことが多いため、現実的な設定に反する。
本稿では,OODデータのみを用いて,極めて低コストで容易に得られるKDを実現できる「emph{out-of-domain} knowledge distillation~(OOD-KD)」と呼ばれる野心的な課題に取り組むことを試みる。
必然的に、OOD-KDは本質的に、非依存的なドメインギャップのために非常に困難なタスクである。
この目的のために、我々は~\textit{MosaicKD} と呼ばれる便利だが驚くほど効果的なアプローチを導入する。
MosaicKDの背景にある重要な洞察は、様々なドメインのサンプルが共通の局所パターンを共有していることだが、そのグローバルな意味は様々であるが、これらの共有された局所パターンはモザイクのタイリングと類似して再組み立てされ、ドメイン内のデータを近似し、ドメイン間の差を緩和することができる。
モザイクKDでは、予習教師の指導の下、発電機、判別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。
各種ベンチマークにおける分類とセマンティックセグメンテーションタスクよりもMosaicKDを検証し,OODデータの最先端データよりもはるかに優れた結果が得られることを示した。
我々のコードは \url{https://github.com/zju-vipa/MosaicKD} で入手できる。
関連論文リスト
- DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge Distillation [33.208860361882095]
データフリー知識蒸留法(DFKD)が直接解法として登場した。
しかし、DFKDから派生したモデルを現実のアプリケーションに適用するだけで、性能が著しく低下する。
本研究では,教師の適切な知識を選択的に伝達する簡易かつ効果的なAuG-KDを提案する。
論文 参考訳(メタデータ) (2024-03-11T03:34:14Z) - EAT: Towards Long-Tailed Out-of-Distribution Detection [55.380390767978554]
本稿では,長い尾を持つOOD検出の課題に対処する。
主な困難は、尾クラスに属するサンプルとOODデータを区別することである。
本稿では,(1)複数の禁制クラスを導入して分布内クラス空間を拡大すること,(2)コンテキストリッチなOODデータに画像をオーバーレイすることでコンテキスト限定のテールクラスを拡大すること,の2つの簡単な考え方を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:47:13Z) - Prior Knowledge Guided Unsupervised Domain Adaptation [82.9977759320565]
本稿では,対象とするクラス分布に関する事前知識を利用できる知識誘導型非教師付きドメイン適応(KUDA)設定を提案する。
特に,対象領域におけるクラス分布に関する2種類の事前知識について考察する。
このような事前知識を用いて生成した擬似ラベルを精査する修正モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T18:41:36Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Dual-Teacher++: Exploiting Intra-domain and Inter-domain Knowledge with
Reliable Transfer for Cardiac Segmentation [69.09432302497116]
最先端の半教師付きドメイン適応フレームワークである Dual-Teacher++ を提案する。
ソースドメイン(MRなど)からのクロスモダリティ優先度を探索するドメイン間教師モデルと、ラベルのないターゲットドメインの知識を調査するドメイン内教師モデルを含む、新しいデュアル教師モデルを設計する。
このようにして、学生モデルは信頼できる二重ドメイン知識を得て、ターゲットドメインデータのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-01-07T05:17:38Z) - Meta-KD: A Meta Knowledge Distillation Framework for Language Model
Compression across Domains [31.66937407833244]
本稿ではメタ知識蒸留(Meta-KD)フレームワークを提案する。
具体的には、まずクロスドメイン学習プロセスを活用して、複数のドメイン上でメタ教師を訓練し、メタ教師からの指導で単一ドメインの学生モデルを学習するためのメタ蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-02T15:18:37Z) - Unsupervised Multi-Target Domain Adaptation Through Knowledge
Distillation [14.088776449829345]
非教師なし領域適応(UDA)は、ラベルなしデータの分布間のドメインシフトの問題を軽減する。
本稿では,複数の対象領域にまたがる一般化が可能なCNNを訓練するための,教師なしMTDA手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T14:59:45Z) - Inter-Region Affinity Distillation for Road Marking Segmentation [81.3619453527367]
本研究では,大規模な教員ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。
我々の手法はInter-Region Affinity KD(IntRA-KD)として知られている。
論文 参考訳(メタデータ) (2020-04-11T04:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。