論文の概要: Semi-Supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2111.11067v1
- Date: Mon, 22 Nov 2021 09:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:14:31.105516
- Title: Semi-Supervised Vision Transformers
- Title(参考訳): 半スーパービジョン変換器
- Authors: Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
- 参考スコア(独自算出の注目度): 76.83020291497895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the training of Vision Transformers for semi-supervised image
classification. Transformers have recently demonstrated impressive performance
on a multitude of supervised learning tasks. Surprisingly, we find Vision
Transformers perform poorly on a semi-supervised ImageNet setting. In contrast,
Convolutional Neural Networks (CNNs) achieve superior results in small labeled
data regime. Further investigation reveals that the reason is CNNs have strong
spatial inductive bias. Inspired by this observation, we introduce a joint
semi-supervised learning framework, Semiformer, which contains a Transformer
branch, a Convolutional branch and a carefully designed fusion module for
knowledge sharing between the branches. The Convolutional branch is trained on
the limited supervised data and generates pseudo labels to supervise the
training of the transformer branch on unlabeled data. Extensive experiments on
ImageNet demonstrate that Semiformer achieves 75.5\% top-1 accuracy,
outperforming the state-of-the-art. In addition, we show Semiformer is a
general framework which is compatible with most modern Transformer and
Convolutional neural architectures.
- Abstract(参考訳): 半教師付き画像分類のための視覚変換器の訓練について検討する。
トランスフォーマーは最近、教師付き学習タスクで印象的なパフォーマンスを示した。
驚いたことに、視覚トランスフォーマーは半教師ありのimagenet設定ではうまく機能しない。
対照的に、畳み込みニューラルネットワーク(cnns)は、小さなラベル付きデータレジームで優れた結果を得る。
さらなる調査により、CNNが強い空間誘導バイアスを持つ理由が明らかになった。
そこで本研究では,トランスフォーマーブランチとコンボリューショナルブランチと,各ブランチ間の知識共有のための慎重に設計された融合モジュールを含む半教師付き学習フレームワークであるSemiformerを紹介する。
畳み込み分岐は制限教師データに基づいて訓練され、擬似ラベルを生成してラベルなしデータ上で変圧器分岐の訓練を監督する。
imagenetでの広範な実験により、semiformerは75.5\%のtop-1精度を達成し、最先端を上回っている。
さらに、Semiformerは現代のほとんどのTransformerおよびConvolutional Neural Architectureと互換性のある一般的なフレームワークであることを示す。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation [10.727162449071155]
我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
論文 参考訳(メタデータ) (2023-09-09T02:18:17Z) - Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。
しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。
本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文 参考訳(メタデータ) (2022-10-21T12:17:12Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。