論文の概要: Hard Patches Mining for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2304.05919v1
- Date: Wed, 12 Apr 2023 15:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:34:52.620655
- Title: Hard Patches Mining for Masked Image Modeling
- Title(参考訳): マスク画像モデリングのためのハードパッチマイニング
- Authors: Haochen Wang, Kaiyou Song, Junsong Fan, Yuxi Wang, Jin Xie, Zhaoxiang
Zhang
- Abstract要約: マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
- 参考スコア(独自算出の注目度): 52.46714618641274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has attracted much research attention due to its
promising potential for learning scalable visual representations. In typical
approaches, models usually focus on predicting specific contents of masked
patches, and their performances are highly related to pre-defined mask
strategies. Intuitively, this procedure can be considered as training a student
(the model) on solving given problems (predict masked patches). However, we
argue that the model should not only focus on solving given problems, but also
stand in the shoes of a teacher to produce a more challenging problem by
itself. To this end, we propose Hard Patches Mining (HPM), a brand-new
framework for MIM pre-training. We observe that the reconstruction loss can
naturally be the metric of the difficulty of the pre-training task. Therefore,
we introduce an auxiliary loss predictor, predicting patch-wise losses first
and deciding where to mask next. It adopts a relative relationship learning
strategy to prevent overfitting to exact reconstruction loss values.
Experiments under various settings demonstrate the effectiveness of HPM in
constructing masked images. Furthermore, we empirically find that solely
introducing the loss prediction objective leads to powerful representations,
verifying the efficacy of the ability to be aware of where is hard to
reconstruct.
- Abstract(参考訳): マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
典型的なアプローチでは、モデルは通常、マスクされたパッチの特定の内容を予測することに集中し、その性能は事前に定義されたマスク戦略と非常に関連している。
直感的には、この手順は、与えられた問題を解決するための学生(モデル)の訓練(予測マスクパッチ)と見なすことができる。
しかし,本モデルでは,与えられた問題解決に留意すべきであるだけでなく,教師の足元に立つことで,より困難な課題を自力で解決するべきだと論じた。
そこで我々は,MIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
復元損失は,事前学習作業の難易度を示す指標として自然に考えられる。
そこで我々は,まずパッチワイズ損失を予測し,次にマスクする場所を決定する補助損失予測器を導入する。
相対的な関係学習戦略を採用し、正確な再構成損失値への過剰適合を防止する。
種々の条件下での実験は、マスク画像の構築におけるHPMの有効性を示す。
さらに, 損失予測の目標のみを導入すると強力な表現が得られ, 再構築が困難であることを認識できる能力の有効性を検証できることがわかった。
関連論文リスト
- AEMIM: Adversarial Examples Meet Masked Image Modeling [12.072673694665934]
本稿では,新たな再構成対象として,敵対例をマスク画像モデリングに組み込むことを提案する。
特に、原画像に対応する敵の例を再構成する、新しい補助的前文タスクを導入する。
また,MIM事前学習において,より適切な対戦例を構築するために,革新的な敵攻撃を考案する。
論文 参考訳(メタデータ) (2024-07-16T09:39:13Z) - Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - Meta-Prior: Meta learning for Adaptive Inverse Problem Solvers [9.364509804053275]
現実のイメージングの課題は、しばしば真実のデータを欠いているため、従来の監督されたアプローチは効果がない。
本手法では,様々な画像処理タスクに対してメタモデルを訓練し,特定のタスクに対して効率的に微調整を行う。
簡単な設定で、このアプローチはベイズ最適推定器を復元し、我々のアプローチの健全性を示す。
論文 参考訳(メタデータ) (2023-11-30T17:02:27Z) - SMOOT: Saliency Guided Mask Optimized Online Training [3.024318849346373]
Saliency-Guided Training (SGT) 手法は、出力に基づいてモデルのトレーニングで顕著な特徴を強調しようとする。
SGTは入力を部分的にマスキングすることで、モデルの最終的な結果をより解釈できるようにする。
本稿では,トレーニング中の入力,精度,モデル損失に基づいて,マスク画像の最適個数を推定する手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T19:41:49Z) - AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image
Segmentation [67.97926983664676]
自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。
しかし,このような手法を医用画像に直接適用することは依然として困難である。
適応型マスキング病変パッチ(AMLP)の自己管理型医用画像分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T13:18:10Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。