論文の概要: PR-MIM: Delving Deeper into Partial Reconstruction in Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2411.15746v1
- Date: Sun, 24 Nov 2024 07:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:54.665575
- Title: PR-MIM: Delving Deeper into Partial Reconstruction in Masked Image Modeling
- Title(参考訳): PR-MIM:仮面画像モデリングにおける部分再構成の深化
- Authors: Zhong-Yu Li, Yunheng Li, Deng-Ping Fan, Ming-Ming Cheng,
- Abstract要約: マスク付き画像モデリングは、学習表現において大きな成功を収めてきたが、膨大な計算コストによって制限されている。
コスト削減戦略の1つは、デコーダがマスクされたトークンのサブセットだけを再構築し、他のトークンを投げることである。
本稿では, 投棄されたトークンを極めて軽量に再構成するための, プログレッシブ・リコンストラクション・ストラテジとファテスト・サンプリング・ストラテジーを提案する。
- 参考スコア(独自算出の注目度): 82.36394157396408
- License:
- Abstract: Masked image modeling has achieved great success in learning representations but is limited by the huge computational costs. One cost-saving strategy makes the decoder reconstruct only a subset of masked tokens and throw the others, and we refer to this method as partial reconstruction. However, it also degrades the representation quality. Previous methods mitigate this issue by throwing tokens with minimal information using temporal redundancy inaccessible for static images or attention maps that incur extra costs and complexity. To address these limitations, we propose a progressive reconstruction strategy and a furthest sampling strategy to reconstruct those thrown tokens in an extremely lightweight way instead of completely abandoning them. This approach involves all masked tokens in supervision to ensure adequate pre-training, while maintaining the cost-reduction benefits of partial reconstruction. We validate the effectiveness of the proposed method across various existing frameworks. For example, when throwing 50% patches, we can achieve lossless performance of the ViT-B/16 while saving 28% FLOPs and 36% memory usage compared to standard MAE. Our source code will be made publicly available
- Abstract(参考訳): マスク付き画像モデリングは、学習表現において大きな成功を収めてきたが、膨大な計算コストによって制限されている。
1つのコスト削減戦略は、デコーダをマスクしたトークンのサブセットのみを再構成し、他のトークンをスローし、この手法を部分的再構成と呼ぶ。
しかし、表現の質も低下する。
従来の方法では、静的な画像や、余分なコストと複雑さをもたらす注意マップに対して、時間的冗長性を使って最小限の情報でトークンを投げることによって、この問題を軽減する。
これらの制約に対処するため, 投棄されたトークンを完全に捨てるのではなく, 非常に軽量に再構成する, プログレッシブ・リコンストラクション・ストラテジとファテスト・サンプリング・ストラテジーを提案する。
このアプローチでは、部分的再構築のコスト削減効果を維持しながら、適切な事前トレーニングを確保するために、監督中のすべてのマスク付きトークンが関与する。
提案手法の有効性を,既存フレームワーク間で検証する。
例えば、50%のパッチを投げると、標準的なMAEと比較して28%のFLOPと36%のメモリ使用量を節約しながら、ViT-B/16のロスレスパフォーマンスを達成することができる。
私たちのソースコードは公開されます
関連論文リスト
- Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration [35.3663995646582]
オールインワン画像復元は、複数の劣化タイプを1つのモデルで処理することを目的としている。
本稿では,オールインワンブラインド画像復元のための簡易パイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-28T16:33:43Z) - Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Learning Sparse and Low-Rank Priors for Image Recovery via Iterative
Reweighted Least Squares Minimization [12.487990897680422]
本稿では,学習されたスパース制約と低ランク制約下での画像復元のための新しい最適化アルゴリズムを提案する。
提案アルゴリズムは、信号回復に使用されるIRLS(Iteratively Reweighted Least Squares)法を一般化する。
我々の再建結果は競争力が高く、多くの場合、既存の未登録ネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-04-20T17:59:45Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。