Fugu-MT 論文翻訳(概要): Channel Self-Supervision for Online Knowledge Distillation

論文の概要: Channel Self-Supervision for Online Knowledge Distillation

arxiv url: http://arxiv.org/abs/2203.11660v2
Date: Wed, 23 Mar 2022 10:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-24 11:52:14.346001
Title: Channel Self-Supervision for Online Knowledge Distillation
Title（参考訳）: オンライン知識蒸留におけるチャンネル自己スーパービジョン
Authors: Shixiao Fan, Xuan Cheng, Xiaomin Wang, Chun Yang, Pan Deng, Minghui Liu, Jiali Deng, Ming Liu
Abstract要約: オンライン知識蒸留(CSS)のための新しいオンライン知識蒸留法, textbfChannel textbfSelf-textbfSupervisionを提案する。我々は,マルチブランチ構造を構築し,自己教師付き学習を通じて分岐間多様性を向上させる。提案手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上を実現している。
参考スコア（独自算出の注目度）: 14.033675223173933
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, researchers have shown an increased interest in the online knowledge distillation. Adopting an one-stage and end-to-end training fashion, online knowledge distillation uses aggregated intermediated predictions of multiple peer models for training. However, the absence of a powerful teacher model may result in the homogeneity problem between group peers, affecting the effectiveness of group distillation adversely. In this paper, we propose a novel online knowledge distillation method, \textbf{C}hannel \textbf{S}elf-\textbf{S}upervision for Online Knowledge Distillation (CSS), which structures diversity in terms of input, target, and network to alleviate the homogenization problem. Specifically, we construct a dual-network multi-branch structure and enhance inter-branch diversity through self-supervised learning, adopting the feature-level transformation and augmenting the corresponding labels. Meanwhile, the dual network structure has a larger space of independent parameters to resist the homogenization problem during distillation. Extensive quantitative experiments on CIFAR-100 illustrate that our method provides greater diversity than OKDDip and we also give pretty performance improvement, even over the state-of-the-art such as PCL. The results on three fine-grained datasets (StanfordDogs, StanfordCars, CUB-200-211) also show the significant generalization capability of our approach.
Abstract（参考訳）: 近年,オンライン知識蒸留への関心が高まっている。オンライン知識蒸留は、ワンステージとエンドツーエンドのトレーニング手法を採用し、複数のピアモデルの集約された中間予測を使用してトレーニングを行う。しかし、強力な教師モデルがないことは、グループ仲間間の均質性の問題を引き起こし、グループ蒸留の有効性に悪影響を及ぼす可能性がある。本稿では,オンライン知識蒸留のための新しいオンライン知識蒸留法である \textbf{c}hannel \textbf{s}elf-\textbf{s}upervision for online knowledge distillation (css)を提案する。具体的には,デュアルネットワークのマルチブランチ構造を構築し,自己教師付き学習によるブランチ間多様性を高める。一方、二重ネットワーク構造は蒸留時の均質化問題に抵抗する独立したパラメータの空間が大きい。 CIFAR-100の大規模定量実験により,本手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上が得られた。 StanfordDogs,StanfordCars,CUB-200-211の3つの詳細なデータセットの結果も,我々のアプローチの大幅な一般化能力を示している。

関連論文リスト

DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文参考訳（メタデータ） (2025-05-16T08:47:16Z)
AICSD: Adaptive Inter-Class Similarity Distillation for Semantic Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文参考訳（メタデータ） (2023-08-08T13:17:20Z)
Distribution Shift Matters for Knowledge Distillation with Webly Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文参考訳（メタデータ） (2023-07-21T10:08:58Z)
Hierarchical Contrastive Learning Enhanced Heterogeneous Graph Neural Network [59.860534520941485]
ヘテロジニアスグラフニューラルネットワーク(HGNN)は、異種情報ネットワーク(HIN)を扱う能力に優れていた。近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。
論文参考訳（メタデータ） (2023-04-24T16:17:21Z)
Heterogeneous-Branch Collaborative Learning for Dialogue Generation [11.124375734351826]
協調学習は、十分に訓練された大規模な教師モデルが存在しない場合、一段階のグループ蒸留を効果的に行う方法である。従来の作業は、同じトレーニング目標と独立した同一トレーニングセットのために、深刻な分岐均一性の問題があった。本稿では, 正の蒸留法と負の蒸留法を組み合わせた二重群式知識蒸留法を提案する。
論文参考訳（メタデータ） (2023-03-21T06:41:50Z)
Exploring Inter-Channel Correlation for Diversity-preserved KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。 ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文参考訳（メタデータ） (2022-02-08T07:01:56Z)
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文参考訳（メタデータ） (2021-12-17T11:56:56Z)
Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文参考訳（メタデータ） (2020-10-02T05:52:12Z)
Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。 DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文参考訳（メタデータ） (2020-08-02T15:42:29Z)
Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-01-06T12:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。