論文の概要: A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.12574v1
- Date: Mon, 24 Jul 2023 07:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:10:41.366701
- Title: A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation
- Title(参考訳): 良い学生は協力的で信頼できる:意味セグメンテーションのためのcnn-transformer協調学習
- Authors: Jinjing Zhu, Yunhao Luo, Xu Zheng, Hao Wang and Lin Wang
- Abstract要約: 我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 8.110815355364947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we strive to answer the question "how to collaboratively learn
convolutional neural network (CNN)-based and vision transformer (ViT)-based
models by selecting and exchanging the reliable knowledge between them for
semantic segmentation?" Accordingly, we propose an online knowledge
distillation (KD) framework that can simultaneously learn compact yet effective
CNN-based and ViT-based models with two key technical breakthroughs to take
full advantage of CNNs and ViT while compensating their limitations. Firstly,
we propose heterogeneous feature distillation (HFD) to improve students'
consistency in low-layer feature space by mimicking heterogeneous features
between CNNs and ViT. Secondly, to facilitate the two students to learn
reliable knowledge from each other, we propose bidirectional selective
distillation (BSD) that can dynamically transfer selective knowledge. This is
achieved by 1) region-wise BSD determining the directions of knowledge
transferred between the corresponding regions in the feature space and 2)
pixel-wise BSD discerning which of the prediction knowledge to be transferred
in the logit space. Extensive experiments on three benchmark datasets
demonstrate that our proposed framework outperforms the state-of-the-art online
distillation methods by a large margin, and shows its efficacy in learning
collaboratively between ViT-based and CNN-based models.
- Abstract(参考訳): 本稿では,「畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマ(vit)に基づくモデルと,それらの間の信頼できる知識の選択と交換により,どのように協調的に学習するか」という問いに答える。
そこで我々は,CNN と ViT の2つの重要な技術的ブレークスルーを持つコンパクトで効果的な CNN ベースモデルと ViT ベースのモデルを同時に学習し,その限界を補いながら CNN と ViT を最大限に活用するオンライン知識蒸留(KD)フレームワークを提案する。
まず,CNN と ViT の不均一な特徴を模倣することにより,低層特徴空間における学生の一貫性を向上させるヘテロジニアス特徴蒸留(HFD)を提案する。
第二に, 2人の学生が相互に信頼できる知識を学べるようにするため, 選択的知識を動的に伝達できる双方向選択的蒸留(bsd)を提案する。
これが達成される
1)特徴空間内の対応する領域間で伝達される知識の方向を決定する領域単位BSD
2)ロジット空間においてどの予測知識を転送すべきかをピクセル単位のBSDで判別する。
3つのベンチマークデータセットの大規模な実験により,提案手法は最先端のオンライン蒸留法よりも高い性能を示し,ViTベースモデルとCNNベースモデルとの協調学習の有効性を示した。
関連論文リスト
- Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Leveraging Different Learning Styles for Improved Knowledge Distillation
in Biomedical Imaging [0.9208007322096533]
我々の研究は知識多様化の概念を活用して、知識蒸留(KD)や相互学習(ML)といったモデル圧縮技術の性能を向上させる。
我々は,教師から学生(KD)への知識伝達を可能にすると同時に,学生(ML)間の協調学習を促進する統一的な枠組みで,一教師と二学生のネットワークを利用する。
教師が学生ネットワークと予測や特徴表現の形で同じ知識を共有する従来の手法とは異なり,提案手法では,教師の予測と特徴マップの学習により,より多様化した戦略を採用する。
論文 参考訳(メタデータ) (2022-12-06T12:40:45Z) - Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the
Best of Both Students [18.860732413631887]
本稿では、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)に基づく2人の学生からなる、新しい半教師付き学習(SSL)手法を提案する。
提案手法は,非ラベルデータに対する擬似ラベルによる予測と異種特徴空間の多レベル整合正則化を,下位に組み込む。
我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。
論文 参考訳(メタデータ) (2022-09-06T02:11:08Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Transfer Learning in Multi-Agent Reinforcement Learning with Double
Q-Networks for Distributed Resource Sharing in V2X Communication [24.442174952832108]
本稿では,V2X通信ネットワークにおける分散スペクトル共有の問題に対処する。
目的は、V2IおよびV2Vリンクの資源効率の高い共存を提供することである。
論文 参考訳(メタデータ) (2021-07-13T15:50:10Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。