論文の概要: AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2403.07030v1
- Date: Mon, 11 Mar 2024 03:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:14:29.696069
- Title: AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge
Distillation
- Title(参考訳): AuG-KD: 外部知識蒸留のためのアンカーベース混合生成
- Authors: Zihao Tang, Zheqi Lv, Shengyu Zhang, Yifan Zhou, Xinyu Duan, Fei Wu,
Kun Kuang
- Abstract要約: データフリー知識蒸留法(DFKD)が直接解法として登場した。
しかし、DFKDから派生したモデルを現実のアプリケーションに適用するだけで、性能が著しく低下する。
本研究では,教師の適切な知識を選択的に伝達する簡易かつ効果的なAuG-KDを提案する。
- 参考スコア(独自算出の注目度): 34.87414259654525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to privacy or patent concerns, a growing number of large models are
released without granting access to their training data, making transferring
their knowledge inefficient and problematic. In response, Data-Free Knowledge
Distillation (DFKD) methods have emerged as direct solutions. However, simply
adopting models derived from DFKD for real-world applications suffers
significant performance degradation, due to the discrepancy between teachers'
training data and real-world scenarios (student domain). The degradation stems
from the portions of teachers' knowledge that are not applicable to the student
domain. They are specific to the teacher domain and would undermine students'
performance. Hence, selectively transferring teachers' appropriate knowledge
becomes the primary challenge in DFKD. In this work, we propose a simple but
effective method AuG-KD. It utilizes an uncertainty-guided and sample-specific
anchor to align student-domain data with the teacher domain and leverages a
generative method to progressively trade off the learning process between OOD
knowledge distillation and domain-specific information learning via mixup
learning. Extensive experiments in 3 datasets and 8 settings demonstrate the
stability and superiority of our approach. Code available at
https://github.com/IshiKura-a/AuG-KD .
- Abstract(参考訳): プライバシや特許に関する懸念から、トレーニングデータへのアクセスを許可せずに多数の大規模モデルがリリースされ、知識の転送が非効率で問題となる。
これに対し,Data-Free Knowledge Distillation (DFKD) 法が直接解法として登場した。
しかし,教師の訓練データと実世界のシナリオ(学生ドメイン)の相違により,dfkdから派生したモデルを実世界のアプリケーションに適用するだけで性能が著しく低下する。
この劣化は、学生ドメインに適用できない教師の知識の一部に起因している。
彼らは教師のドメインに特有であり、生徒のパフォーマンスを損なうことになる。
そのため,dfkdでは,教師の適切な知識を選択的に伝達することが課題となっている。
本研究では,AuG-KDの簡易かつ効果的な手法を提案する。
不確実性とサンプル固有のアンカーを用いて、学生ドメインデータを教師ドメインに整列させ、OOD知識蒸留と混合学習によるドメイン固有の情報学習との学習プロセスを段階的にトレードオフする生成手法を活用する。
3つのデータセットと8つの設定での広範な実験は、我々のアプローチの安定性と優位性を示しています。
コードはhttps://github.com/IshiKura-a/AuG-KDで公開されている。
関連論文リスト
- Selective Knowledge Sharing for Privacy-Preserving Federated
Distillation without A Good Teacher [52.2926020848095]
フェデレーション学習は、ホワイトボックス攻撃に脆弱で、異種クライアントへの適応に苦慮している。
本稿では,選択的FD(Selective-FD)と呼ばれるFDのための選択的知識共有機構を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:04:19Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Data-Free Knowledge Transfer: A Survey [13.335198869928167]
知識蒸留(KD)とドメイン適応(DA)が提案され,研究のハイライトとなっている。
どちらも、元のトレーニングデータを持つ十分に訓練されたモデルから有用な情報を転送することを目的としている。
近年,データフリーな知識伝達パラダイムが注目されている。
論文 参考訳(メタデータ) (2021-12-31T03:39:42Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data [56.29595334715237]
知識蒸留(KD)は,対象領域における教師の行動を模倣する,コンパクトな学生モデルを構築することを目的としている。
私たちは、astextitMosaicKDと呼ばれる便利だが驚くほど効果的なアプローチを導入しました。
モザイクKDでは、ジェネレータ、識別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。
論文 参考訳(メタデータ) (2021-10-27T13:01:10Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Towards Zero-Shot Knowledge Distillation for Natural Language Processing [9.223848704267088]
知識蒸留(KD)は、さまざまなディープラーニングベースの自然言語処理(NLP)ソリューションのモデル圧縮に使用される一般的なアルゴリズムです。
通常の表現では、kdは生徒ネットワークへの知識伝達のために教師のトレーニングデータにアクセスする必要がある。
私たちは、NLPのためのゼロショット知識蒸留の最初の作品である私たちの知識のベストを提示します。そこでは、学生はタスク固有のデータなしではるかに大きな教師から学びます。
論文 参考訳(メタデータ) (2020-12-31T08:16:29Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。