論文の概要: Masked Image Modeling with Denoising Contrast
- arxiv url: http://arxiv.org/abs/2205.09616v1
- Date: Thu, 19 May 2022 15:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 13:57:50.963654
- Title: Masked Image Modeling with Denoising Contrast
- Title(参考訳): デノイジングコントラストを用いたマスク画像モデリング
- Authors: Kun Yi, Yixiao Ge, Xiaotong Li, Shusheng Yang, Dian Li, Jianping Wu,
Ying Shan, Xiaohu Qie
- Abstract要約: マスク付き画像モデリングは、視覚変換器の最先端性能でこの研究のラインを独占している。
画像内画像間のコントラスト制約を生成するための,新しい事前学習手法であるConMIMを導入する。
ConMIM-pretrained vision Transformer with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation task。
- 参考スコア(独自算出の注目度): 30.31920660487222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the development of self-supervised visual representation learning from
contrastive learning to masked image modeling, there is no significant
difference in essence, that is, how to design proper pretext tasks for vision
dictionary look-up. Masked image modeling recently dominates this line of
research with state-of-the-art performance on vision Transformers, where the
core is to enhance the patch-level visual context capturing of the network via
denoising auto-encoding mechanism. Rather than tailoring image tokenizers with
extra training stages as in previous works, we unleash the great potential of
contrastive learning on denoising auto-encoding and introduce a new
pre-training method, ConMIM, to produce simple intra-image inter-patch
contrastive constraints as the learning objectives for masked patch prediction.
We further strengthen the denoising mechanism with asymmetric designs,
including image perturbations and model progress rates, to improve the network
pre-training. ConMIM-pretrained vision Transformers with various scales achieve
promising results on downstream image classification, semantic segmentation,
object detection, and instance segmentation tasks.
- Abstract(参考訳): コントラスト学習からマスキング画像モデリングへの自己教師あり視覚表現学習の開発により,視覚辞書検索のための適切な前文タスクの設計方法という本質的な違いは認められなかった。
マスク付き画像モデリングは、近ごろ、ビジョントランスフォーマーにおける最先端のパフォーマンスでこの研究のラインを独占し、コアとなるのは、自動エンコーディング機構をデノベートすることで、ネットワークのパッチレベルの視覚的コンテキストキャプチャを強化することである。
従来のように訓練段階を余分に調整する代わりに、自動エンコーディングのデノベーションにおけるコントラスト学習の大きな可能性を解き放ち、マスク付きパッチ予測の学習目的として、シンプルな画像内パッチ間コントラスト制約を生成するための新しい事前学習手法であるConMIMを導入する。
さらに、画像摂動やモデル進行率などの非対称な設計でデノナイジング機構を強化し、ネットワーク事前学習を改善する。
様々なスケールのconmimプリトレーニングされたビジョントランスフォーマは、下流の画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションタスクにおいて有望な結果を達成する。
関連論文リスト
- Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。
提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文 参考訳(メタデータ) (2024-03-08T10:19:00Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Masked Autoencoders as Image Processors [35.531254533198165]
機能事前訓練のためのマスク付きオートエンコーダ(MAE)はトランスフォーマーの可能性を解き放った。
本稿では,マスク付きオートエンコーダが,画像処理タスクのためのスケーラブルな自己教師型学習器であることを示す。
論文 参考訳(メタデータ) (2023-03-30T12:09:35Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Exploring Stochastic Autoregressive Image Modeling for Visual
Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文 参考訳(メタデータ) (2022-12-03T13:04:29Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。