論文の概要: PatchRot: A Self-Supervised Technique for Training Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.15722v1
- Date: Thu, 27 Oct 2022 18:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:16:02.031659
- Title: PatchRot: A Self-Supervised Technique for Training Vision Transformers
- Title(参考訳): patchrot:視覚トランスフォーマーの訓練のための自己教師技術
- Authors: Sachin Chhabra, Prabal Bijoy Dutta, Hemanth Venkateswara and Baoxin Li
- Abstract要約: ビジョントランスフォーマーは、畳み込みニューラルネットワークを上回るために、大量のラベル付きデータを必要とする。
視覚変換器のための自己教師技術であるPatchRotを提案する。
異なるデータセットに関する実験では、PatchRotトレーニングは教師付き学習を上回り、ベースラインを比較したリッチな特徴を学習する。
- 参考スコア(独自算出の注目度): 22.571734100855046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers require a huge amount of labeled data to outperform
convolutional neural networks. However, labeling a huge dataset is a very
expensive process. Self-supervised learning techniques alleviate this problem
by learning features similar to supervised learning in an unsupervised way. In
this paper, we propose a self-supervised technique PatchRot that is crafted for
vision transformers. PatchRot rotates images and image patches and trains the
network to predict the rotation angles. The network learns to extract both
global and local features from an image. Our extensive experiments on different
datasets showcase PatchRot training learns rich features which outperform
supervised learning and compared baseline.
- Abstract(参考訳): 視覚トランスフォーマーは畳み込みニューラルネットワークを上回るために大量のラベル付きデータを必要とする。
しかし、巨大なデータセットのラベリングは非常に高価なプロセスです。
自己教師付き学習技術は、教師なし学習と同様の学習機能によってこの問題を軽減する。
本稿では,視覚変換器のための自己教師型PatchRotを提案する。
PatchRotは画像とイメージパッチを回転させ、ネットワークをトレーニングして回転角を予測する。
ネットワークは、画像からグローバルとローカル両方の特徴を抽出することを学ぶ。
異なるデータセットに関する広範な実験では、PatchRotトレーニングは教師付き学習よりも優れたリッチな特徴を学び、ベースラインを比較します。
関連論文リスト
- An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels [65.64402188506644]
バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
主にコンピュータビジョンにおける3つのよく研究されたタスクにおける画素・アズ・トークンの有効性を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Gated Self-supervised Learning For Improving Supervised Learning [1.784933900656067]
本稿では,複数の局所化可能な拡張法とゲーティング手法を組み合わせることで,画像分類のための自己教師型学習手法を提案する。
我々のアプローチでは、回転に加え、フリップとシャッフルのチャネル拡張を使用し、モデルがデータからリッチな特徴を学習することができる。
論文 参考訳(メタデータ) (2023-01-14T09:32:12Z) - An Empirical Study Of Self-supervised Learning Approaches For Object
Detection With Transformers [0.0]
画像再構成,マスク画像モデリング,ジグソーに基づく自己監督手法について検討する。
iSAIDデータセットの予備実験は、事前学習とマルチタスク学習の両方において、初期のエポックにおけるDETRのより高速な収束を示す。
論文 参考訳(メタデータ) (2022-05-11T14:39:27Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - SiT: Self-supervised vIsion Transformer [23.265568744478333]
自然言語処理(NLP)では、自己監督学習とトランスフォーマーはすでに選択の方法です。
本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。
小規模データセットの下流分類タスクに対して,事前学習したsatを微調整可能であることを示す。
論文 参考訳(メタデータ) (2021-04-08T08:34:04Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Supervised and Unsupervised Learning of Parameterized Color Enhancement [112.88623543850224]
我々は、教師なし学習と教師なし学習の両方を用いて、画像翻訳タスクとしての色強調の問題に取り組む。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果が得られた。
20世紀初頭の写真や暗黒ビデオフレームに応用することで,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2019-12-30T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。