論文の概要: A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.12574v1
- Date: Mon, 24 Jul 2023 07:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:10:41.366701
- Title: A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation
- Title(参考訳): 良い学生は協力的で信頼できる:意味セグメンテーションのためのcnn-transformer協調学習
- Authors: Jinjing Zhu, Yunhao Luo, Xu Zheng, Hao Wang and Lin Wang
- Abstract要約: 我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 8.110815355364947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we strive to answer the question "how to collaboratively learn
convolutional neural network (CNN)-based and vision transformer (ViT)-based
models by selecting and exchanging the reliable knowledge between them for
semantic segmentation?" Accordingly, we propose an online knowledge
distillation (KD) framework that can simultaneously learn compact yet effective
CNN-based and ViT-based models with two key technical breakthroughs to take
full advantage of CNNs and ViT while compensating their limitations. Firstly,
we propose heterogeneous feature distillation (HFD) to improve students'
consistency in low-layer feature space by mimicking heterogeneous features
between CNNs and ViT. Secondly, to facilitate the two students to learn
reliable knowledge from each other, we propose bidirectional selective
distillation (BSD) that can dynamically transfer selective knowledge. This is
achieved by 1) region-wise BSD determining the directions of knowledge
transferred between the corresponding regions in the feature space and 2)
pixel-wise BSD discerning which of the prediction knowledge to be transferred
in the logit space. Extensive experiments on three benchmark datasets
demonstrate that our proposed framework outperforms the state-of-the-art online
distillation methods by a large margin, and shows its efficacy in learning
collaboratively between ViT-based and CNN-based models.
- Abstract(参考訳): 本稿では,「畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマ(vit)に基づくモデルと,それらの間の信頼できる知識の選択と交換により,どのように協調的に学習するか」という問いに答える。
そこで我々は,CNN と ViT の2つの重要な技術的ブレークスルーを持つコンパクトで効果的な CNN ベースモデルと ViT ベースのモデルを同時に学習し,その限界を補いながら CNN と ViT を最大限に活用するオンライン知識蒸留(KD)フレームワークを提案する。
まず,CNN と ViT の不均一な特徴を模倣することにより,低層特徴空間における学生の一貫性を向上させるヘテロジニアス特徴蒸留(HFD)を提案する。
第二に, 2人の学生が相互に信頼できる知識を学べるようにするため, 選択的知識を動的に伝達できる双方向選択的蒸留(bsd)を提案する。
これが達成される
1)特徴空間内の対応する領域間で伝達される知識の方向を決定する領域単位BSD
2)ロジット空間においてどの予測知識を転送すべきかをピクセル単位のBSDで判別する。
3つのベンチマークデータセットの大規模な実験により,提案手法は最先端のオンライン蒸留法よりも高い性能を示し,ViTベースモデルとCNNベースモデルとの協調学習の有効性を示した。
関連論文リスト
- CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation [60.08541107831459]
本稿では,医用画像セグメンテーションのための強力なCNNベースモデルとトランスフォーマーベースモデルを学習するための,CNN-Transformer修正協調学習フレームワークを提案する。
具体的には,学生ソフトラベルの誤り領域を適応的に選択・修正する基礎的真理を取り入れた修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,機能空間におけるCNNベースモデルとTransformerベースモデル間の効果的な知識伝達を実現するために,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
論文 参考訳(メタデータ) (2024-08-25T01:27:35Z) - Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation [13.753795233064695]
ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。
ECB(Explicitly Class-specific boundaries)と呼ばれる,ViTとCNNの両方をフル活用するためのハイブリッド手法を設計する。
ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。
論文 参考訳(メタデータ) (2024-03-27T08:52:44Z) - Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the
Best of Both Students [18.860732413631887]
本稿では、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)に基づく2人の学生からなる、新しい半教師付き学習(SSL)手法を提案する。
提案手法は,非ラベルデータに対する擬似ラベルによる予測と異種特徴空間の多レベル整合正則化を,下位に組み込む。
我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。
論文 参考訳(メタデータ) (2022-09-06T02:11:08Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Transfer Learning in Multi-Agent Reinforcement Learning with Double
Q-Networks for Distributed Resource Sharing in V2X Communication [24.442174952832108]
本稿では,V2X通信ネットワークにおける分散スペクトル共有の問題に対処する。
目的は、V2IおよびV2Vリンクの資源効率の高い共存を提供することである。
論文 参考訳(メタデータ) (2021-07-13T15:50:10Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。