論文の概要: Evolved Hierarchical Masking for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2504.09155v1
- Date: Sat, 12 Apr 2025 09:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:21.718004
- Title: Evolved Hierarchical Masking for Self-Supervised Learning
- Title(参考訳): 自己指導型学習のための階層型マスキング
- Authors: Zhanzhou Feng, Shiliang Zhang,
- Abstract要約: 既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
- 参考スコア(独自算出の注目度): 49.77271430882176
- License:
- Abstract: Existing Masked Image Modeling methods apply fixed mask patterns to guide the self-supervised training. As those mask patterns resort to different criteria to depict image contents, sticking to a fixed pattern leads to a limited vision cues modeling capability.This paper introduces an evolved hierarchical masking method to pursue general visual cues modeling in self-supervised learning. The proposed method leverages the vision model being trained to parse the input visual cues into a hierarchy structure, which is hence adopted to generate masks accordingly. The accuracy of hierarchy is on par with the capability of the model being trained, leading to evolved mask patterns at different training stages. Initially, generated masks focus on low-level visual cues to grasp basic textures, then gradually evolve to depict higher-level cues to reinforce the learning of more complicated object semantics and contexts. Our method does not require extra pre-trained models or annotations and ensures training efficiency by evolving the training difficulty. We conduct extensive experiments on seven downstream tasks including partial-duplicate image retrieval relying on low-level details, as well as image classification and semantic segmentation that require semantic parsing capability. Experimental results demonstrate that it substantially boosts performance across these tasks. For instance, it surpasses the recent MAE by 1.1\% in imageNet-1K classification and 1.4\% in ADE20K segmentation with the same training epochs. We also align the proposed method with the current research focus on LLMs. The proposed approach bridges the gap with large-scale pre-training on semantic demanding tasks and enhances intricate detail perception in tasks requiring low-level feature recognition.
- Abstract(参考訳): 既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
これらのマスクパターンは、画像内容の表現に異なる基準を用いるため、固定されたパターンに固執すると、視覚的キューモデリング能力が制限され、自己教師付き学習における一般的な視覚的キューモデリングを追求する階層型マスキング手法が導入された。
提案手法は,入力された視覚的手がかりを階層構造に解析するために訓練された視覚モデルを活用する。
階層の精度は、トレーニング中のモデルの能力と同等であり、異なるトレーニング段階におけるマスクパターンの進化につながります。
当初、生成されたマスクは、基本的なテクスチャを理解するために低レベルの視覚的手がかりに焦点を合わせ、その後徐々に進化して、より複雑なオブジェクトの意味や文脈の学習を強化するために高レベルの手がかりを描くようになった。
本手法では,事前学習したモデルやアノテーションを必要とせず,トレーニングの難しさを進化させることでトレーニング効率を確保する。
低レベルの細部に依存する部分二重化画像検索や,意味解析機能を必要とする画像分類とセマンティックセマンティックセグメンテーションを含む,下流7つのタスクについて広範な実験を行った。
実験の結果、これらのタスク間でパフォーマンスが大幅に向上することが示された。
例えば、ImageNet-1Kの分類では1.1\%、ADE20Kのセグメンテーションでは1.4\%、同じトレーニングエポックでは1.1\%を超えている。
また,提案手法をLLMに焦点を合わせている。
提案手法は,意味的要求タスクに対する大規模事前学習によるギャップを埋め,低レベルの特徴認識を必要とするタスクにおいて,複雑な詳細認識を強化する。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - Efficient Vision-Language Pre-training by Cluster Masking [13.845233914223561]
本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。
画像パッチをランダムにマスキングし,画像の画素強度を計測した。
これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。
論文 参考訳(メタデータ) (2024-05-14T17:59:40Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。