論文の概要: AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.07030v2
- Date: Mon, 18 Mar 2024 02:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 01:21:18.008283
- Title: AuG-KD: Anchor-Based Mixup Generation for Out-of-Domain Knowledge Distillation
- Title(参考訳): AuG-KD: 外部知識蒸留のためのアンカーベース混合生成
- Authors: Zihao Tang, Zheqi Lv, Shengyu Zhang, Yifan Zhou, Xinyu Duan, Fei Wu, Kun Kuang,
- Abstract要約: データフリー知識蒸留法(DFKD)が直接解法として登場した。
しかし、DFKDから派生したモデルを現実のアプリケーションに適用するだけで、性能が著しく低下する。
本研究では,教師の適切な知識を選択的に伝達する簡易かつ効果的なAuG-KDを提案する。
- 参考スコア(独自算出の注目度): 33.208860361882095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to privacy or patent concerns, a growing number of large models are released without granting access to their training data, making transferring their knowledge inefficient and problematic. In response, Data-Free Knowledge Distillation (DFKD) methods have emerged as direct solutions. However, simply adopting models derived from DFKD for real-world applications suffers significant performance degradation, due to the discrepancy between teachers' training data and real-world scenarios (student domain). The degradation stems from the portions of teachers' knowledge that are not applicable to the student domain. They are specific to the teacher domain and would undermine students' performance. Hence, selectively transferring teachers' appropriate knowledge becomes the primary challenge in DFKD. In this work, we propose a simple but effective method AuG-KD. It utilizes an uncertainty-guided and sample-specific anchor to align student-domain data with the teacher domain and leverages a generative method to progressively trade off the learning process between OOD knowledge distillation and domain-specific information learning via mixup learning. Extensive experiments in 3 datasets and 8 settings demonstrate the stability and superiority of our approach. Code available at https://github.com/IshiKura-a/AuG-KD .
- Abstract(参考訳): プライバシや特許に関する懸念から、トレーニングデータへのアクセスを許可することなく、多数の大規模モデルがリリースされ、知識の転送が非効率で問題となる。
これに対し,Data-Free Knowledge Distillation (DFKD) 法が直接解法として登場した。
しかし、DFKDから派生したモデルを実世界のアプリケーションに適用するだけで、教師のトレーニングデータと実世界のシナリオ(学生ドメイン)との相違により、大幅なパフォーマンス劣化が生じる。
この劣化は、学生ドメインに当てはまらない教師の知識の一部に起因している。
彼らは教師のドメインに特有であり、生徒のパフォーマンスを損なうことになる。
したがって、DFKDでは、教師の適切な知識を選択的に伝達することが第一の課題となる。
本研究では,AuG-KDの簡易かつ効果的な手法を提案する。
不確実性とサンプル固有のアンカーを用いて、学生ドメインデータを教師ドメインに整列させ、OOD知識蒸留と混合学習によるドメイン固有の情報学習との学習プロセスを段階的にトレードオフする生成手法を活用する。
3つのデータセットと8つの設定の大規模な実験は、我々のアプローチの安定性と優位性を示している。
コードはhttps://github.com/IshiKura-a/AuG-KD で公開されている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Selective Knowledge Sharing for Privacy-Preserving Federated
Distillation without A Good Teacher [52.2926020848095]
フェデレーション学習は、ホワイトボックス攻撃に脆弱で、異種クライアントへの適応に苦慮している。
本稿では,選択的FD(Selective-FD)と呼ばれるFDのための選択的知識共有機構を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:04:19Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Data-Free Knowledge Transfer: A Survey [13.335198869928167]
知識蒸留(KD)とドメイン適応(DA)が提案され,研究のハイライトとなっている。
どちらも、元のトレーニングデータを持つ十分に訓練されたモデルから有用な情報を転送することを目的としている。
近年,データフリーな知識伝達パラダイムが注目されている。
論文 参考訳(メタデータ) (2021-12-31T03:39:42Z) - Semi-Online Knowledge Distillation [2.373824287636486]
従来の知識蒸留(KD)は、大規模で訓練済みの教師ネットワークから小さな学生ネットワークへ知識を伝達することである。
学生ネットワークの協調学習を支援するために,Deep mutual learning (DML) が提案されている。
学生と教師のパフォーマンスを効果的に向上する半オンライン知識蒸留法(SOKD)を提案する。
論文 参考訳(メタデータ) (2021-11-23T09:44:58Z) - Mosaicking to Distill: Knowledge Distillation from Out-of-Domain Data [56.29595334715237]
知識蒸留(KD)は,対象領域における教師の行動を模倣する,コンパクトな学生モデルを構築することを目的としている。
私たちは、astextitMosaicKDと呼ばれる便利だが驚くほど効果的なアプローチを導入しました。
モザイクKDでは、ジェネレータ、識別器、学生ネットワークを対角的に総合的に訓練する4人プレイのmin-maxゲームによってこれを達成している。
論文 参考訳(メタデータ) (2021-10-27T13:01:10Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。