論文の概要: CORSD: Class-Oriented Relational Self Distillation
- arxiv url: http://arxiv.org/abs/2305.00918v1
- Date: Fri, 28 Apr 2023 16:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:56:37.896020
- Title: CORSD: Class-Oriented Relational Self Distillation
- Title(参考訳): CORSD: クラス指向リレーショナル自己蒸留
- Authors: Muzhou Yu, Sia Huat Tan, Kailu Wu, Runpei Dong, Linfeng Zhang,
Kaisheng Ma
- Abstract要約: 知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.11986532440837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation conducts an effective model compression method while
holding some limitations:(1) the feature based distillation methods only focus
on distilling the feature map but are lack of transferring the relation of data
examples; (2) the relational distillation methods are either limited to the
handcrafted functions for relation extraction, such as L2 norm, or weak in
inter- and intra- class relation modeling. Besides, the feature divergence of
heterogeneous teacher-student architectures may lead to inaccurate relational
knowledge transferring. In this work, we propose a novel training framework
named Class-Oriented Relational Self Distillation (CORSD) to address the
limitations. The trainable relation networks are designed to extract relation
of structured data input, and they enable the whole model to better classify
samples by transferring the relational knowledge from the deepest layer of the
model to shallow layers. Besides, auxiliary classifiers are proposed to make
relation networks capture class-oriented relation that benefits classification
task. Experiments demonstrate that CORSD achieves remarkable improvements.
Compared to baseline, 3.8%, 1.5% and 4.5% averaged accuracy boost can be
observed on CIFAR100, ImageNet and CUB-200-2011, respectively.
- Abstract(参考訳): 知識蒸留は,(1)特徴量に基づく蒸留法は特徴量マップの蒸留にのみ焦点をあてるが,データ例の関係の伝達に欠ける,(2)関係蒸留法はL2ノルムなどの関係抽出のための手作業関数に制限される,あるいはクラス間関係モデリングの弱い,といった制約を伴って効果的なモデル圧縮法を実行する。
さらに、異質な教師学生アーキテクチャの特徴のばらつきは、不正確な関係知識の伝達につながる可能性がある。
本研究では,CORSD(Class-Oriented Relational Self Distillation)と呼ばれる新しい学習フレームワークを提案する。
トレーニング可能な関係ネットワークは、構造化されたデータ入力の関係を抽出するように設計されており、モデル全体の関係知識をモデルの最も深い層から浅い層に転送することで、サンプルをよりよく分類することができる。
また,分類課題の恩恵を受けるクラス指向関係を,関係ネットワークに捕捉する補助的分類器を提案する。
実験により、CORSDは著しく改善された。
ベースラインと比較すると、cifar100、imagenet、cub-200-2011では3.8%、1.5%、4.5%の精度向上が見られる。
関連論文リスト
- Relational Representation Distillation [6.24302896438145]
本稿では,複雑な知識の効率的な伝達を保証するためにRepresentation Distillation (RRD)を導入する。
自己監督学習の原則に触発されて、正確な複製よりも類似性に焦点を当てた、リラックスした対照的な損失を使用する。
提案手法はCIFAR-100よりも優れており,従来のKD技術より優れ,最先端手法は13を超える。
論文 参考訳(メタデータ) (2024-07-16T14:56:13Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Complementary Relation Contrastive Distillation [13.944372633594085]
CRCD(Complementary Relation Contrastive Distillation)という新しい知識蒸留法を提案する。
我々は,アンカー-教師関係の監督の下で,アンカー-教師関係を推定し,アンカー-教師関係を蒸留する。
異なるベンチマーク実験により,提案したCRCDの有効性が示された。
論文 参考訳(メタデータ) (2021-03-29T02:43:03Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。