論文の概要: Bootstrap Masked Visual Modeling via Hard Patches Mining
- arxiv url: http://arxiv.org/abs/2312.13714v1
- Date: Thu, 21 Dec 2023 10:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:15:29.356209
- Title: Bootstrap Masked Visual Modeling via Hard Patches Mining
- Title(参考訳): ハードパッチマイニングによるBootstrap Maskedビジュアルモデリング
- Authors: Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tiancai Wang,
Xiangyu Zhang, Zhaoxiang Zhang
- Abstract要約: マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
- 参考スコア(独自算出の注目度): 68.74750345823674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked visual modeling has attracted much attention due to its promising
potential in learning generalizable representations. Typical approaches urge
models to predict specific contents of masked tokens, which can be intuitively
considered as teaching a student (the model) to solve given problems
(predicting masked contents). Under such settings, the performance is highly
correlated with mask strategies (the difficulty of provided problems). We argue
that it is equally important for the model to stand in the shoes of a teacher
to produce challenging problems by itself. Intuitively, patches with high
values of reconstruction loss can be regarded as hard samples, and masking
those hard patches naturally becomes a demanding reconstruction task. To
empower the model as a teacher, we propose Hard Patches Mining (HPM),
predicting patch-wise losses and subsequently determining where to mask.
Technically, we introduce an auxiliary loss predictor, which is trained with a
relative objective to prevent overfitting to exact loss values. Also, to
gradually guide the training procedure, we propose an easy-to-hard mask
strategy. Empirically, HPM brings significant improvements under both image and
video benchmarks. Interestingly, solely incorporating the extra loss prediction
objective leads to better representations, verifying the efficacy of
determining where is hard to reconstruct. The code is available at
https://github.com/Haochen-Wang409/HPM.
- Abstract(参考訳): マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性のために多くの注目を集めている。
典型的なアプローチでは、モデルにマスク付きトークンの特定の内容を予測するよう促すが、これは直感的に学生(モデル)に与えられた問題を解決すること(マスク付きコンテンツの予測)を教えることができる。
このような状況下では、パフォーマンスはマスク戦略(提供難易度)と高い相関関係にある。
モデルが教師の靴に身を包み、それ自体で挑戦的な問題を生み出すことが等しく重要であると論じている。
直感的には、再構成損失の高いパッチはハードサンプルと見なすことができ、これらのハードパッチをマスキングすることは自然に要求される再構築タスクとなる。
教師としてモデルに力を与えるため,我々はハードパッチマイニング(hpm)を提案し,パッチによる損失を予測し,次にマスクする場所を決定する。
技術的には、正確な損失値への過剰適合を防ぐために、相対的な目標で訓練される補助損失予測器を導入する。
また,トレーニング手順を徐々にガイドするために,簡単なマスク戦略を提案する。
実証的には、HPMはイメージベンチマークとビデオベンチマークの両方で大幅に改善されている。
興味深いことに、余分な損失予測目標のみを組み込むことで、より良い表現が得られ、再構築が難しい場所を決定する効果が検証される。
コードはhttps://github.com/Haochen-Wang409/HPMで公開されている。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - SMOOT: Saliency Guided Mask Optimized Online Training [3.024318849346373]
Saliency-Guided Training (SGT) 手法は、出力に基づいてモデルのトレーニングで顕著な特徴を強調しようとする。
SGTは入力を部分的にマスキングすることで、モデルの最終的な結果をより解釈できるようにする。
本稿では,トレーニング中の入力,精度,モデル損失に基づいて,マスク画像の最適個数を推定する手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T19:41:49Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。