論文の概要: PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2303.02416v2
- Date: Fri, 24 Mar 2023 05:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:37:21.236139
- Title: PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling
- Title(参考訳): PixMIM:マズーク画像モデリングにおけるピクセル再構成の再考
- Authors: Yuan Liu, Songyang Zhang, Jiacheng Chen, Kai Chen, Dahua Lin
- Abstract要約: Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
- 参考スコア(独自算出の注目度): 83.67628239775878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) has achieved promising progress with the advent
of Masked Autoencoders (MAE) and BEiT. However, subsequent works have
complicated the framework with new auxiliary tasks or extra pre-trained models,
inevitably increasing computational overhead. This paper undertakes a
fundamental analysis of MIM from the perspective of pixel reconstruction, which
examines the input image patches and reconstruction target, and highlights two
critical but previously overlooked bottlenecks. Based on this analysis, we
propose a remarkably simple and effective method, {\ourmethod}, that entails
two strategies: 1) filtering the high-frequency components from the
reconstruction target to de-emphasize the network's focus on texture-rich
details and 2) adopting a conservative data transform strategy to alleviate the
problem of missing foreground in MIM training. {\ourmethod} can be easily
integrated into most existing pixel-based MIM approaches (\ie, using raw images
as reconstruction target) with negligible additional computation. Without bells
and whistles, our method consistently improves three MIM approaches, MAE,
ConvMAE, and LSMAE, across various downstream tasks. We believe this effective
plug-and-play method will serve as a strong baseline for self-supervised
learning and provide insights for future improvements of the MIM framework.
Code and models are available at
\url{https://github.com/open-mmlab/mmselfsup/tree/dev-1.x/configs/selfsup/pixmim}.
- Abstract(参考訳): Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
しかし、その後の作業は、新しい補助タスクや予備訓練されたモデルでフレームワークを複雑化し、必然的に計算オーバーヘッドを増加させた。
本稿では、画素再構成の観点からMIMの基本的な解析を行い、入力画像パッチと再構成ターゲットを調べ、2つの重要なボトルネックを強調する。
この分析に基づいて, 2つの戦略を包含する非常に単純で効果的な方法, {\ourmethod} を提案する。
1) 再構成対象から高周波成分をフィルタリングし、テクスチャに富む詳細へのネットワークの焦点を強調しない。
2)MIMトレーニングにおける前景不足の問題を軽減するため,保守的なデータ変換戦略を採用する。
{\ourmethod} は、既存のピクセルベースのMIMアプローチ (\ie, using raw image as reconstruction target) に、無視できる追加計算で簡単に統合できる。
ベルとホイッスルがなければ,提案手法は様々な下流タスクにおいて,MAE,ConvMAE,LSMAEの3つのMIMアプローチを一貫して改善する。
我々は,この効果的なプラグアンドプレイ方式が,自己指導型学習の強力なベースラインとなり,MIMフレームワークの今後の改良に対する洞察を提供すると考えている。
コードとモデルは \url{https://github.com/open-mmlab/mmselfsup/tree/dev-1.x/configs/selfsup/pixmim} で利用可能である。
関連論文リスト
- Symmetric masking strategy enhances the performance of Masked Image Modeling [0.0]
Masked Image Modeling (MIM) は、ラベルのない画像から詳細な視覚表現を取得することに焦点を当てた自己教師付き学習の技法である。
モデルがグローバルな特徴とローカルな特徴を効果的に捉えるのに役立つ新しいマスキング戦略を提案する。
このマスキング戦略であるSymMIMに基づいて,MIMのためのトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-23T00:15:43Z) - Membership Inference Attack Against Masked Image Modeling [29.699606401861818]
Masked Image Modeling (MIM)は、視覚認識のための自己教師付き学習(SSL)の領域で大きな成功を収めた。
本研究では、MIMの事前学習データプライバシーを研究することで、異なる角度を採る。
MIMにより事前訓練された画像エンコーダに対する最初のメンバシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-13T11:34:28Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation [5.888156950854715]
本稿では,3次元ハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。
提案手法はHandMIMと呼ばれ,様々なハンドメッシュ推定タスクにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2023-07-29T19:46:06Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。