論文の概要: PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers
- arxiv url: http://arxiv.org/abs/2111.12710v1
- Date: Wed, 24 Nov 2021 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:36:19.930634
- Title: PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers
- Title(参考訳): PeCo:視覚変換器のBERT事前トレーニングのための知覚コードブック
- Authors: Xiaoyi Dong and Jianmin Bao and Ting Zhang and Dongdong Chen and
Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu
- Abstract要約: 本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
- 参考スコア(独自算出の注目度): 102.7922200135147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores a better codebook for BERT pre-training of vision
transformers. The recent work BEiT successfully transfers BERT pre-training
from NLP to the vision field. It directly adopts one simple discrete VAE as the
visual tokenizer, but has not considered the semantic level of the resulting
visual tokens. By contrast, the discrete tokens in NLP field are naturally
highly semantic. This difference motivates us to learn a perceptual codebook.
And we surprisingly find one simple yet effective idea: enforcing perceptual
similarity during the dVAE training. We demonstrate that the visual tokens
generated by the proposed perceptual codebook do exhibit better semantic
meanings, and subsequently help pre-training achieve superior transfer
performance in various downstream tasks. For example, we achieve 84.5 Top-1
accuracy on ImageNet-1K with ViT-B backbone, outperforming the competitive
method BEiT by +1.3 with the same pre-training epochs. It can also improve the
performance of object detection and segmentation tasks on COCO val by +1.3 box
AP and +1.0 mask AP, semantic segmentation on ADE20k by +1.0 mIoU, The code and
models will be available at \url{https://github.com/microsoft/PeCo}.
- Abstract(参考訳): 本稿では,視覚トランスフォーマーのbertプリトレーニングのためのより良いコードブックについて検討する。
近年のBEiTは、BERTの事前訓練をNLPからビジョンフィールドに転送することに成功している。
視覚トークン化器として単一の離散VAEを直接採用しているが、結果として生じる視覚トークンの意味レベルは考慮されていない。
対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。
この違いは、知覚的なコードブックを学ぶモチベーションになります。
dVAEトレーニング中に知覚的類似性を強制するという、シンプルで効果的なアイデアもあります。
提案した知覚コードブックによって生成された視覚的トークンは,より優れた意味を持ち,その後,様々な下流タスクにおいて,事前学習が優れた伝達性能を達成することを実証する。
例えば、ViT-Bバックボーンを用いたImageNet-1Kの84.5 Top-1精度を達成し、競合するBEiTを+1.3倍に向上させる。
また、COCO val 上のオブジェクト検出およびセグメンテーションタスクの+1.3 ボックス AP と +1.0 マスク AP、ADE20k 上のセグメンテーション +1.0 mIoU、コードとモデルは \url{https://github.com/microsoft/PeCo} で利用できる。
関連論文リスト
- Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文 参考訳(メタデータ) (2023-12-04T18:59:20Z) - AdPE: Adversarial Positional Embeddings for Pretraining Vision
Transformers via MAE+ [44.856035786948915]
本稿では,前訓練型視覚変換器に対するAdPE (Adversarial Positional Embedding) アプローチを提案する。
AdPEは位置エンコーディングを摂動することで局所的な視覚構造を歪ませる。
実験により,本手法はMAEの微調整精度を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-03-14T02:42:01Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Bootstrapped Masked Autoencoders for Vision BERT Pretraining [142.5285802605117]
BootMAEは、オリジナルのマスク付きオートエンコーダ(MAE)を2つのコア設計で改善した。
1) BERT予測対象としてオンライン機能を提供するモーメントエンコーダ,2) BERT事前学習における目標固有情報を記憶するためのエンコーダの圧力を減らそうとする目標認識デコーダ。
論文 参考訳(メタデータ) (2022-07-14T17:59:58Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。