論文の概要: RevColV2: Exploring Disentangled Representations in Masked Image
Modeling
- arxiv url: http://arxiv.org/abs/2309.01005v1
- Date: Sat, 2 Sep 2023 18:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 23:47:49.245698
- Title: RevColV2: Exploring Disentangled Representations in Masked Image
Modeling
- Title(参考訳): RevColV2: マスク画像モデリングにおけるアンタングル表現の探索
- Authors: Qi Han, Yuxuan Cai, Xiangyu Zhang
- Abstract要約: Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして広く使われており、有望なパフォーマンスを実現している。
既存のMIMメソッドは、ダウンストリームアプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらす。
本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。
- 参考スコア(独自算出の注目度): 12.876864261893909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has become a prevalent pre-training setup for
vision foundation models and attains promising performance. Despite its
success, existing MIM methods discard the decoder network during downstream
applications, resulting in inconsistent representations between pre-training
and fine-tuning and can hamper downstream task performance. In this paper, we
propose a new architecture, RevColV2, which tackles this issue by keeping the
entire autoencoder architecture during both pre-training and fine-tuning. The
main body of RevColV2 contains bottom-up columns and top-down columns, between
which information is reversibly propagated and gradually disentangled. Such
design enables our architecture with the nice property: maintaining
disentangled low-level and semantic information at the end of the network in
MIM pre-training. Our experimental results suggest that a foundation model with
decoupled features can achieve competitive performance across multiple
downstream vision tasks such as image classification, semantic segmentation and
object detection. For example, after intermediate fine-tuning on ImageNet-22K
dataset, RevColV2-L attains 88.4% top-1 accuracy on ImageNet-1K classification
and 58.6 mIoU on ADE20K semantic segmentation. With extra teacher and large
scale dataset, RevColv2-L achieves 62.1 box AP on COCO detection and 60.4 mIoU
on ADE20K semantic segmentation. Code and models are released at
https://github.com/megvii-research/RevCol
- Abstract(参考訳): Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして普及し、有望なパフォーマンスを実現している。
その成功にもかかわらず、既存のMIMメソッドは下流アプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらし、下流タスクのパフォーマンスを阻害する。
本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。
RevColV2の本体にはボトムアップカラムとトップダウンカラムが含まれており、その間に情報は可逆的に伝播し、徐々に切り離されている。
このような設計により、MIM事前学習においてネットワークの終端において、不整合な低レベルおよびセマンティック情報を維持することができる。
画像分類,セマンティックセグメンテーション,オブジェクト検出など,複数の下流視覚タスクにおいて,分離された特徴を持つ基礎モデルが競合性能を達成できることを示す。
例えば、ImageNet-22Kデータセットの中間微調整の後、RevColV2-LはImageNet-1K分類で88.4%、ADE20Kセマンティックセグメンテーションで58.6 mIoUに達した。
教師と大規模データセットにより、revcolv2-lはcoco検出で62.1ボックスap、ade20kセマンティクスセグメンテーションで60.4miouを達成する。
コードとモデルはhttps://github.com/megvii-research/revcolでリリース
関連論文リスト
- Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Reversible Column Networks [13.385421619753227]
RevCol(Reversible Column Network)は、ニューラルネットワークの設計パラダイムである。
CNNスタイルのRevColモデルは、コンピュータビジョンタスクにおいて非常に競争力のあるパフォーマンスを達成することができる。
RevColは変換器や他のニューラルネットワークにも導入できる。
論文 参考訳(メタデータ) (2022-12-22T13:37:59Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。