論文の概要: mc-BEiT: Multi-choice Discretization for Image BERT Pre-training
- arxiv url: http://arxiv.org/abs/2203.15371v1
- Date: Tue, 29 Mar 2022 09:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:06:31.995470
- Title: mc-BEiT: Multi-choice Discretization for Image BERT Pre-training
- Title(参考訳): mc-BeiT:画像BERT事前学習のためのマルチ選択離散化
- Authors: Xiaotong Li, Yixiao Ge, Kun Yi, Zixuan Hu, Ying Shan, Ling-Yu Duan
- Abstract要約: Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
- 参考スコア(独自算出の注目度): 52.04866462439979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image BERT pre-training with masked image modeling (MIM) becomes a popular
practice to cope with self-supervised representation learning. A seminal work,
BEiT, casts MIM as a classification task with a visual vocabulary, tokenizing
the continuous visual signals into discrete vision tokens using a pre-learned
dVAE. Despite a feasible solution, the improper discretization hinders further
improvements of image pre-training. Since image discretization has no
ground-truth answers, we believe that the masked patch should not be assigned
with a unique token id even if a better tokenizer can be obtained. In this
work, we introduce an improved BERT-style image pre-training method, namely
mc-BEiT, which performs MIM proxy tasks towards eased and refined multi-choice
training objectives. Specifically, the multi-choice supervision for the masked
image patches is formed by the soft probability vectors of the discrete token
ids, which are predicted by the off-the-shelf image tokenizer and further
refined by high-level inter-patch perceptions resorting to the observation that
similar patches should share their choices. Extensive experiments on
classification, segmentation, and detection tasks demonstrate the superiority
of our method, e.g., the pre-trained ViT-B achieves 84.1% top-1 fine-tuning
accuracy on ImageNet-1K classification, 51.2% mIOU on ADE20K semantic
segmentation, 51.2% AP^b and 44.3% AP^m of object detection and instance
segmentation on COCO, outperforming the competitive counterparts.
- Abstract(参考訳): Image BERT Pre-Ting with masked image modeling (MIM) は、自己教師付き表現学習に対処する一般的なプラクティスとなっている。
セミナルワークであるBEiTは、MIMを視覚語彙による分類タスクとしてキャストし、事前学習されたdVAEを使用して、連続した視覚信号を離散的な視覚トークンにトークン化する。
実現可能な解決策にもかかわらず、不適切な離散化は画像事前学習のさらなる改善を妨げる。
画像の離散化には根本的な答えがないため、より優れたトークン化が可能であっても、マスクされたパッチにユニークなトークンIDを割り当てるべきではないと信じている。
本研究では,マルチチョイスの学習目標に対して,mimプロキシタスクを実行するための,bert型イメージプリトレーニング手法であるmc-beitを提案する。
特に、マスク画像パッチのマルチチョイス監督は、オフ・ザ・シェル画像トークン化器によって予測される離散トークンidのソフト確率ベクトルと、類似のパッチが選択を共有すべきという観測に基づくハイレベルなパッチ間知覚によってさらに洗練される。
例えば、事前訓練されたvit-bはimagenet-1k分類で84.1%の微調整精度を達成し、ade20k意味セグメンテーションでは51.2%miou、cocoでは51.2%ap^bと44.3%ap^mのオブジェクト検出とインスタンスセグメンテーションが優れている。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - iBOT: Image BERT Pre-Training with Online Tokenizer [23.997853010642046]
マスク付き画像モデリング(MIM)について検討し,意味論的に意味のある視覚的トークン化手法の利点と課題を示す。
オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。
81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。
論文 参考訳(メタデータ) (2021-11-15T15:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。