論文の概要: Revitalizing CNN Attentions via Transformers in Self-Supervised Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2110.05340v1
- Date: Mon, 11 Oct 2021 15:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 16:07:25.785185
- Title: Revitalizing CNN Attentions via Transformers in Self-Supervised Visual
Representation Learning
- Title(参考訳): 自己監督型視覚表現学習におけるトランスフォーマーによるCNN注意の活性化
- Authors: Chongjian Ge, Youwei Liang, Yibing Song, Jianbo Jiao, Jue Wang and
Ping Luo
- Abstract要約: 視覚表現学習において,変換器で案内される注意的CNNエンコーダを学習するためのCNN注意再活性化(CARE)フレームワークを提案する。
提案するCAREフレームワークは,CNNストリーム(Cストリーム)とトランスフォーマーストリーム(Tストリーム)から構成される。
画像分類、オブジェクト検出、セマンティックセグメンテーションなど、いくつかの標準的な視覚認識ベンチマークの実験により、提案したCAREフレームワークは、CNNエンコーダのバックボーンを最先端のパフォーマンスに改善することを示した。
- 参考スコア(独自算出の注目度): 47.235596945779754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies on self-supervised visual representation learning (SSL) improve
encoder backbones to discriminate training samples without labels. While CNN
encoders via SSL achieve comparable recognition performance to those via
supervised learning, their network attention is under-explored for further
improvement. Motivated by the transformers that explore visual attention
effectively in recognition scenarios, we propose a CNN Attention REvitalization
(CARE) framework to train attentive CNN encoders guided by transformers in SSL.
The proposed CARE framework consists of a CNN stream (C-stream) and a
transformer stream (T-stream), where each stream contains two branches.
C-stream follows an existing SSL framework with two CNN encoders, two
projectors, and a predictor. T-stream contains two transformers, two
projectors, and a predictor. T-stream connects to CNN encoders and is in
parallel to the remaining C-Stream. During training, we perform SSL in both
streams simultaneously and use the T-stream output to supervise C-stream. The
features from CNN encoders are modulated in T-stream for visual attention
enhancement and become suitable for the SSL scenario. We use these modulated
features to supervise C-stream for learning attentive CNN encoders. To this
end, we revitalize CNN attention by using transformers as guidance. Experiments
on several standard visual recognition benchmarks, including image
classification, object detection, and semantic segmentation, show that the
proposed CARE framework improves CNN encoder backbones to the state-of-the-art
performance.
- Abstract(参考訳): 自己教師付き視覚表現学習(SSL)の研究は、ラベルなしでトレーニングサンプルを識別するためにエンコーダのバックボーンを改善する。
SSL経由のCNNエンコーダは、教師付き学習による認識性能に匹敵する性能を達成しているが、ネットワークの注意はさらなる改善のために過小評価されている。
認識シナリオにおいて視覚的注意を効果的に探索するトランスフォーマティブに動機づけられ,sslでトランスフォーマによって誘導される注意 cnn エンコーダをトレーニングするための cnn attention revitalization (care) フレームワークを提案する。
careフレームワークはcnnストリーム(c-stream)とトランスフォーマストリーム(t-stream)で構成されており、各ストリームには2つのブランチが含まれている。
C-streamは2つのCNNエンコーダ、2つのプロジェクタ、予測器を備えた既存のSSLフレームワークに従っている。
t-streamはトランスフォーマー2台、プロジェクタ2台、予測器1台を含む。
TストリームはCNNエンコーダに接続し、残りのC-Streamと並列である。
トレーニング中、両ストリームでSSLを同時に実行し、Tストリーム出力を使用してCストリームを監視します。
CNNエンコーダの機能は、視覚的注意力向上のためにTストリームで変調され、SSLシナリオに適している。
CNNエンコーダの学習には,これらの変調機能を用いてCストリームを監督する。
この目的のために,変換器をガイダンスとしてCNNの注意を活性化する。
画像分類、オブジェクト検出、セマンティクスセグメンテーションを含む、いくつかの標準ビジュアル認識ベンチマークの実験では、提案フレームワークがcnnエンコーダのバックボーンを最先端のパフォーマンスに改善していることが示されている。
関連論文リスト
- CSHNet: A Novel Information Asymmetric Image Translation Method [57.22010952287759]
Swin Embedded CNN (SEC) と CNN Embedded Swin (CES) の2つの主要なモジュールを組み合わせた CNN-Swin Hybrid Network (CSHNet) を提案する。
CSHNetは、シーンレベルのデータセットとインスタンスレベルのデータセットで、視覚的品質とパフォーマンスのメトリクスの両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-01-17T13:44:54Z) - On the Design and Performance of Machine Learning Based Error Correcting Decoders [3.8289109929360245]
まず, 単一ラベル型ニューラルネットワーク (SLNN) とマルチラベル型ニューラルネットワーク (MLNN) のデコーダについて検討した。
次に、エラー訂正符号変換器(ECCT)とクロスアテンションメッセージパッシング変換器(CrossMPT)という、2つのトランスフォーマーベースのデコーダに注目します。
論文 参考訳(メタデータ) (2024-10-21T11:23:23Z) - The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need [103.31261028244782]
視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
論文 参考訳(メタデータ) (2023-12-09T22:23:57Z) - Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio
Models [4.803510486360358]
現在の一般的なAudio Spectrogram Transformersは、CNNと比較して計算複雑性の面で要求されている。
動的非線形性, 動的畳み込み, 注意機構からなる動的CNNブロックを導入する。
実験の結果,導入した動的CNNはダウンストリームタスクの性能が向上し,スケールアップが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-10-24T09:08:20Z) - Cumulative Spatial Knowledge Distillation for Vision Transformers [5.4319569860934465]
畳み込みニューラルネットワーク(CNN)からの知識の希薄化は視覚変換器(ViT)のための二重刃剣である
累積空間知識蒸留(CSKD)について紹介する。
CSKDは、中間特徴を導入することなく、対応するCNNの空間応答からViTのパッチトークンすべてに空間的知識を蒸留する。
論文 参考訳(メタデータ) (2023-07-17T14:03:45Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。