論文の概要: Longer-range Contextualized Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2310.13593v1
- Date: Fri, 20 Oct 2023 15:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:03:02.654554
- Title: Longer-range Contextualized Masked Autoencoder
- Title(参考訳): 長距離コンテキスト化マスク自動エンコーダ
- Authors: Taekyung Kim, Sanghyuk Chun, Byeongho Heo, Dongyoon Han
- Abstract要約: Masked Image Modeling (MIM)は、有望な自己教師型学習(SSL)戦略として登場した。
我々はLonger-range Conized Masked Autoencoder (LC-MAE)という自己教師型学習フレームワークを提案する。
本手法は,複数ビューで全画素から学習すると同時に,スパース画素から局所表現を学習する。
- 参考スコア(独自算出の注目度): 43.42706719923587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has emerged as a promising self-supervised
learning (SSL) strategy. The MIM pre-training facilitates learning powerful
representations using an encoder-decoder framework by randomly masking some
input pixels and reconstructing the masked pixels from the remaining ones.
However, as the encoder is trained with partial pixels, the MIM pre-training
can suffer from a low capability of understanding long-range dependency. This
limitation may hinder its capability to fully understand multiple-range
dependencies, resulting in narrow highlighted regions in the attention map that
may incur accuracy drops. To mitigate the limitation, We propose a
self-supervised learning framework, named Longer-range Contextualized Masked
Autoencoder (LC-MAE). LC-MAE effectively leverages a global context
understanding of visual representations while simultaneously reducing the
spatial redundancy of input at the same time. Our method steers the encoder to
learn from entire pixels in multiple views while also learning local
representation from sparse pixels. As a result, LC-MAE learns more
discriminative representations, leading to a performance improvement of
achieving 84.2% top-1 accuracy with ViT-B on ImageNet-1K with 0.6%p gain. We
attribute the success to the enhanced pre-training method, as evidenced by the
singular value spectrum and attention analyses. Finally, LC-MAE achieves
significant performance gains at the downstream semantic segmentation and
fine-grained visual classification tasks; and on diverse robust evaluation
metrics. Our code will be publicly available.
- Abstract(参考訳): Masked Image Modeling (MIM)は、有望な自己教師型学習(SSL)戦略として登場した。
MIMプリトレーニングは、いくつかの入力ピクセルをランダムにマスキングし、残りのピクセルからマスクされたピクセルを再構成することにより、エンコーダデコーダフレームワークを使用して強力な表現の学習を容易にする。
しかし、エンコーダは部分画素で訓練されるため、MIM事前学習は長距離依存を理解する能力が低い。
この制限は、複数の範囲の依存関係を完全に理解する能力を妨げる可能性があるため、注意マップ内の狭い強調領域が精度低下を引き起こす可能性がある。
この制限を軽減するために,Longer-range Contextualized Masked Autoencoder (LC-MAE) という自己教師型学習フレームワークを提案する。
LC-MAEは、視覚表現のグローバルなコンテキスト理解を効果的に活用し、同時に入力の空間的冗長性を低減します。
本手法は,複数ビューで全画素から学習すると同時に,スパース画素から局所表現を学習する。
その結果、LC-MAEはより差別的な表現を学習し、画像Net-1K上のVT-Bで84.2%のトップ-1の精度を達成する性能が0.6%向上した。
特異値スペクトルと注意分析によって証明されるように,改良事前学習法の成功を特徴付ける。
最後に、LC-MAEは、下流セマンティックセマンティックセグメンテーションときめ細かい視覚的分類タスク、および多様なロバストな評価指標において、大幅な性能向上を達成する。
私たちのコードは公開されます。
関連論文リスト
- Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image
Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Masked Contrastive Representation Learning [6.737710830712818]
本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
我々は、サイムズネットワーク(すなわち、両方の枝のエンコーダ・デコーダ構造)に対して非対称な設定を採用する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットを含む様々なビジョンベンチマークにおいて、MACRLが優れた結果を示す。
論文 参考訳(メタデータ) (2022-11-11T05:32:28Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Contrastive Masked Autoencoders are Stronger Vision Learners [114.16568579208216]
Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-27T14:04:22Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。