論文の概要: Multi-Level Decoupled Relational Distillation for Heterogeneous Architectures
- arxiv url: http://arxiv.org/abs/2502.06189v1
- Date: Mon, 10 Feb 2025 06:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:31:48.184874
- Title: Multi-Level Decoupled Relational Distillation for Heterogeneous Architectures
- Title(参考訳): 異種建築における多層脱カップリング型リレーショナル蒸留
- Authors: Yaoxin Yang, Peng Ye, Weihao Lin, Kangcong Li, Yan Wen, Jia Hao, Tao Chen,
- Abstract要約: MLDR-KD(Multi-Level Decoupled Knowledge Distillation)は、CodeAR-100で最大4.86%、Tiny-ImageNetデータセットで2.78%向上した。
- 参考スコア(独自算出の注目度): 6.231548250160585
- License:
- Abstract: Heterogeneous distillation is an effective way to transfer knowledge from cross-architecture teacher models to student models. However, existing heterogeneous distillation methods do not take full advantage of the dark knowledge hidden in the teacher's output, limiting their performance.To this end, we propose a novel framework named Multi-Level Decoupled Relational Knowledge Distillation (MLDR-KD) to unleash the potential of relational distillation in heterogeneous distillation. Concretely, we first introduce Decoupled Finegrained Relation Alignment (DFRA) in both logit and feature levels to balance the trade-off between distilled dark knowledge and the confidence in the correct category of the heterogeneous teacher model. Then, Multi-Scale Dynamic Fusion (MSDF) module is applied to dynamically fuse the projected logits of multiscale features at different stages in student model, further improving performance of our method in feature level. We verify our method on four architectures (CNNs, Transformers, MLPs and Mambas), two datasets (CIFAR-100 and Tiny-ImageNet). Compared with the best available method, our MLDR-KD improves student model performance with gains of up to 4.86% on CIFAR-100 and 2.78% on Tiny-ImageNet datasets respectively, showing robustness and generality in heterogeneous distillation. Code will be released soon.
- Abstract(参考訳): 不均一蒸留は、クロスアーキテクチャの教師モデルから学生モデルへの知識伝達に有効な方法である。
しかし, 既存のヘテロジニアス蒸留法では, 教師の出力に隠された暗黒知識を最大限に活用することができず, その性能を抑えることができず, このため, ヘテロジニアス蒸留におけるリレーショナル蒸留の可能性を高めるために, MLDR-KD(Multi-Level Decoupled Relational Knowledge Distillation)という新しい枠組みを提案する。
具体的には, 蒸留した暗知識と不均質教師モデルの正しいカテゴリの信頼性のトレードオフを両立させるため, 対数レベルと特徴レベルにDecoupled Finefine Relation Alignment (DFRA)を導入する。
次に,マルチスケールダイナミックフュージョン(MSDF)モジュールを用いて,学生モデルの異なる段階におけるマルチスケール特徴の投影ロジットを動的にフューズし,機能レベルでの性能向上を図る。
提案手法は,CNN,Transformer,MLP,Mambasの4つのアーキテクチャ,CIFAR-100とTiny-ImageNetの2つのデータセット上で検証する。
CIFAR-100で最大4.86%、Tiny-ImageNetデータセットで2.78%向上し、不均一蒸留における堅牢性と一般性を示した。
コードはまもなくリリースされる。
関連論文リスト
- Quantification of Large Language Model Distillation [22.680566179355335]
モデル蒸留の評価と定量化のための枠組みを提案する。
本手法は, 同一性認知の矛盾を同定し, 同一性関連情報の知覚・表現方法の相違性を評価すること, そして, 同一性化の程度を測定するために, モデル間での多粒度応答類似性を解析することの2つの重要な側面に対処する。
論文 参考訳(メタデータ) (2025-01-22T03:57:52Z) - TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - AMD: Automatic Multi-step Distillation of Large-scale Vision Models [39.70559487432038]
本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。
生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。
論文 参考訳(メタデータ) (2024-07-05T01:35:42Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Aligning Logits Generatively for Principled Black-Box Knowledge Distillation [49.43567344782207]
Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。
民営化と蒸留による2段階のワークフローを形式化する。
そこで本研究では,ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。