論文の概要: VRM: Knowledge Distillation via Virtual Relation Matching
- arxiv url: http://arxiv.org/abs/2502.20760v1
- Date: Fri, 28 Feb 2025 06:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:57.832856
- Title: VRM: Knowledge Distillation via Virtual Relation Matching
- Title(参考訳): VRM:仮想関係マッチングによる知識蒸留
- Authors: Weijia Zhang, Fei Xie, Weidong Cai, Chao Ma,
- Abstract要約: 我々は,関係性に基づく手法において,過度な適合性や刺激的な応答に対する感受性など,いくつかの重要な課題に対処する。
我々は、有用なサンプル間、クラス間、およびビュー間相関の富をコンパクトにカプセル化する、新規に構築された親和性グラフを転送する。
CIFAR-100およびImageNetデータセットの実験は、提案した仮想関係マッチング(VRM)法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.272319084378488
- License:
- Abstract: Knowledge distillation (KD) aims to transfer the knowledge of a more capable yet cumbersome teacher model to a lightweight student model. In recent years, relation-based KD methods have fallen behind, as their instance-matching counterparts dominate in performance. In this paper, we revive relational KD by identifying and tackling several key issues in relation-based methods, including their susceptibility to overfitting and spurious responses. Specifically, we transfer novelly constructed affinity graphs that compactly encapsulate a wealth of beneficial inter-sample, inter-class, and inter-view correlations by exploiting virtual views and relations as a new kind of knowledge. As a result, the student has access to richer guidance signals and stronger regularisation throughout the distillation process. To further mitigate the adverse impact of spurious responses, we prune the affinity graphs by dynamically detaching redundant and unreliable edges. Extensive experiments on CIFAR-100 and ImageNet datasets demonstrate the superior performance of the proposed virtual relation matching (VRM) method over a range of models, architectures, and set-ups. For instance, VRM for the first time hits 74.0% accuracy for ResNet50-to-MobileNetV2 distillation on ImageNet, and improves DeiT-T by 14.44% on CIFAR-100 with a ResNet56 teacher. Thorough analyses are also conducted to gauge the soundness, properties, and complexity of our designs. Code and models will be released.
- Abstract(参考訳): 知識蒸留(KD)は、より有能で扱いにくい教師モデルの知識を軽量な学生モデルに移すことを目的としている。
近年では、インスタンスマッチングがパフォーマンスに優位なため、関係ベースのKD手法が遅れている。
本稿では,リレーショナルなKDを,リレーショナルな手法におけるいくつかの重要な問題を特定し,対処することで,リレーショナルなKDを復活させる。
具体的には、仮想ビューと関係を新しい種類の知識として活用することにより、有用なサンプル間、クラス間、およびビュー間相関の富をコンパクトにカプセル化する、新規に構築された親和性グラフを転送する。
その結果、学生はよりリッチな指導信号にアクセスでき、蒸留プロセスを通してより強力な正規化を行うことができる。
刺激応答の悪影響を緩和するために、冗長かつ信頼性の低いエッジを動的に取り除き、親和性グラフを創り出す。
CIFAR-100とImageNetデータセットの大規模な実験は、提案した仮想関係マッチング(VRM)法のモデル、アーキテクチャ、セットアップよりも優れた性能を示す。
例えば、初めてVRMはImageNet上でResNet50-to-MobileNetV2蒸留で74.0%の精度に達し、ResNet56の教師でCIFAR-100でDeiT-Tを14.44%改善した。
また, 設計の健全性, 特性, 複雑さを評価するために, 詳細な解析を行った。
コードとモデルはリリースされる。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-28T16:00:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Boosting Contrastive Learning with Relation Knowledge Distillation [12.14219750487548]
関係知識蒸留 (Relation Knowledge Distillation, ReKD) を用いた関係性に関するコントラストパラダイムを提案する。
提案手法は,複数の軽量モデルにおいて大幅な改善を実現することを示す。
論文 参考訳(メタデータ) (2021-12-08T08:49:18Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。