論文の概要: Position Labels for Self-Supervised Vision Transformer
- arxiv url: http://arxiv.org/abs/2206.04981v1
- Date: Fri, 10 Jun 2022 10:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:07:49.249724
- Title: Position Labels for Self-Supervised Vision Transformer
- Title(参考訳): 自己監督型視覚変換器の位置ラベル
- Authors: Zhemin Zhang, Xun Gong, Jinyi Wu
- Abstract要約: 位置符号化は、入力画像の空間構造を捉えるために視覚変換器(ViT)にとって重要である。
絶対位置と相対位置を含む2次元画像専用の2つの位置ラベルを提案する。
我々の位置ラベルは、様々なViTの変種と組み合わさって、簡単にトランスフォーマーに接続できる。
- 参考スコア(独自算出の注目度): 1.3406858660972554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Position encoding is important for vision transformer (ViT) to capture the
spatial structure of the input image. General efficacy has been proven in ViT.
In our work we propose to train ViT to recognize the 2D position encoding of
patches of the input image, this apparently simple task actually yields a
meaningful self-supervisory task. Based on previous work on ViT position
encoding, we propose two position labels dedicated to 2D images including
absolute position and relative position. Our position labels can be easily
plugged into transformer, combined with the various current ViT variants. It
can work in two ways: 1.As an auxiliary training target for vanilla ViT (e.g.,
ViT-B and Swin-B) to improve model performance. 2. Combine the self-supervised
ViT (e.g., MAE) to provide a more powerful self-supervised signal for semantic
feature learning. Experiments demonstrate that solely due to the proposed
self-supervised methods, Swin-B and ViT-B obtained improvements of 1.9% (top-1
Acc) and 5.6% (top-1 Acc) on Mini-ImageNet, respectively.
- Abstract(参考訳): 位置符号化は、入力画像の空間構造を捉えるために視覚変換器(ViT)にとって重要である。
一般的な効果はViTで証明されている。
我々の研究では、入力画像のパッチの2次元位置エンコーディングを認識するためにViTを訓練することを提案するが、この明らかに単純なタスクは意味のある自己監督タスクをもたらす。
ViT位置符号化に関するこれまでの研究に基づいて、絶対位置と相対位置を含む2次元画像専用の2つの位置ラベルを提案する。
我々の位置ラベルは、様々なViT変種と組み合わせることで、容易にトランスフォーマーに接続できる。
1.バニラViT(例えば、ViT-BとSwin-B)の補助訓練目標としてモデル性能を改善する。
2.
自己教師付きViT(例:MAE)を組み合わせることで、意味的特徴学習のためのより強力な自己教師付き信号を提供する。
実験の結果、Swin-B と ViT-B がそれぞれ Mini-ImageNet で 1.9% (top-1 Acc) と 5.6% (top-1 Acc) の改善を得た。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Understanding Gaussian Attention Bias of Vision Transformers Using
Effective Receptive Fields [7.58745191859815]
イメージを分割したパッチのシーケンスとしてモデル化する視覚変換器(ViT)は、多様な視覚タスクにおいて顕著なパフォーマンスを示している。
本稿では,姿勢埋め込みをトレーニング開始時から対応するパターンを持つようにガイドするガウス的注意バイアスを明示的に追加することを提案する。
その結果,提案手法は画像の理解を容易にするだけでなく,様々なデータセット上での性能向上にも寄与することがわかった。
論文 参考訳(メタデータ) (2023-05-08T14:12:25Z) - ViT-AE++: Improving Vision Transformer Autoencoder for Self-supervised
Medical Image Representations [3.6284577335311554]
ビジョントランスフォーマーベースのオートエンコーダ(ViT-AE)は、パッチマスキング戦略を用いて有意義な潜在空間を学習する自己教師型学習技術である。
トレーニング中の表現性を高めるために,2つの新たな損失関数を提案する。
自然画像と医用画像の両方でVT-AE++を広範囲に評価し,バニラVT-AEよりも一貫した改善を示した。
論文 参考訳(メタデータ) (2023-01-18T09:25:21Z) - Semi-supervised Vision Transformers at Scale [93.0621675558895]
視覚変換器(ViT)のための半教師あり学習(SSL)について検討する。
我々は、最初のun/self教師付き事前トレーニングと教師付き微調整、そして最後に半教師付き微調整からなる新しいSSLパイプラインを提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を達成している。
論文 参考訳(メタデータ) (2022-08-11T08:11:54Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。