論文の概要: Mapping Emulation for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2205.10490v1
- Date: Sat, 21 May 2022 02:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 14:18:26.752446
- Title: Mapping Emulation for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのマッピングエミュレーション
- Authors: Jing Ma, Xiang Xiang, Zihan Zhang, Yuwen Tan, Yiming Wan, Zhigang
Zeng, Dacheng Tao
- Abstract要約: 本稿では,フェデレーション学習に不可欠なソース・ブラインド知識蒸留問題の定式化を行う。
新しいアーキテクチャMEKDを提案する。
様々なベンチマークにおいて、MEKDは既存のソースブレンドKD法より優れている。
- 参考スコア(独自算出の注目度): 94.20630785525732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper formalizes the source-blind knowledge distillation problem that is
essential to federated learning. A new geometric perspective is presented to
view such a problem as aligning generated distributions between the teacher and
student. With its guidance, a new architecture MEKD is proposed to emulate the
inverse mapping through generative adversarial training. Unlike mimicking
logits and aligning logit distributions, reconstructing the mapping from
classifier-logits has a geometric intuition of decreasing empirical distances,
and theoretical guarantees using the universal function approximation and
optimal mass transportation theories. A new algorithm is also proposed to train
the student model that reaches the teacher's performance source-blindly. On
various benchmarks, MEKD outperforms existing source-blind KD methods,
explainable with ablation studies and visualized results.
- Abstract(参考訳): 本稿では, 連関学習に欠かせない情報源盲点の知識蒸留問題を定式化する。
教師と生徒の間に生成された分布を整合させるような,新たな幾何学的視点が提示される。
新たなアーキテクチャMEKDが提案され, 生成的対角学習による逆写像をエミュレートする。
ロジットの模倣やロジット分布の整列とは異なり、分類器-ロジットからの写像の再構成は経験的距離を減少させる幾何学的直観を持ち、普遍関数近似と最適質量輸送理論を用いて理論的に保証される。
また,教師のパフォーマンス源となる学生モデルを学習するための新しいアルゴリズムも提案されている。
様々なベンチマークにおいて、MEKDは既存のソースブレンドKD法よりも優れており、アブレーション研究と視覚化結果で説明できる。
関連論文リスト
- One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Data-Efficient Ranking Distillation for Image Retrieval [15.88955427198763]
近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために、知識蒸留を用いてこの問題に対処している。
本稿では,計量学習問題に対する知識蒸留について述べる。
従来の手法とは違って,提案手法では,教師モデルに対する限定的なクエリ,最終出力表現へのアクセスを伴うブラックボックス教師モデル,および第3に,基本トラストラベルのないオリジナルトレーニングデータのごく一部に対処する。
論文 参考訳(メタデータ) (2020-07-10T10:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。