論文の概要: From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding
- arxiv url: http://arxiv.org/abs/2603.09955v1
- Date: Tue, 10 Mar 2026 17:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.516789
- Title: From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding
- Title(参考訳): セマンティックスからピクセルへ:階層的視覚理解のための粗いマスケードオートエンコーダ
- Authors: Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen,
- Abstract要約: C2FMAEは粗いマスク付きオートエンコーダで、3つのデータ粒度にわたる階層的な視覚表現を明示的に学習する。
我々は,C2FMAEが画像分類,オブジェクト検出,セマンティックセグメンテーションにおいて顕著な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 31.516613298007005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised visual pre-training methods face an inherent tension: contrastive learning (CL) captures global semantics but loses fine-grained detail, while masked image modeling (MIM) preserves local textures but suffers from "attention drift" due to semantically-agnostic random masking. We propose C2FMAE, a coarse-to-fine masked autoencoder that resolves this tension by explicitly learning hierarchical visual representations across three data granularities: semantic masks (scene-level), instance masks (object-level), and RGB images (pixel-level). Two synergistic innovations enforce a strict top-down learning principle. First, a cascaded decoder sequentially reconstructs from scene semantics to object instances to pixel details, establishing explicit cross-granularity dependencies that parallel decoders cannot capture. Second, a progressive masking curriculum dynamically shifts the training focus from semantic-guided to instance-guided and finally to random masking, creating a structured learning path from global context to local features. To support this framework, we construct a large-scale multi-granular dataset with high-quality pseudo-labels for all 1.28M ImageNet-1K images. Extensive experiments show that C2FMAE achieves significant performance gains on image classification, object detection, and semantic segmentation, validating the effectiveness of our hierarchical design in learning more robust and generalizable representations.
- Abstract(参考訳): 対照的学習(CL)はグローバルなセマンティクスをキャプチャするが、細部の詳細は失われる一方、マスク付き画像モデリング(MIM)は局所的なテクスチャを保存するが、意味論的に無意味なランダムなマスキングによって「注意の漂い」に悩まされる。
C2FMAEは,3つのデータ粒度の階層的視覚表現(セマンティックマスク(シーンレベル),インスタンスマスク(オブジェクトレベル),RGBイメージ(ピクセルレベル)を明示的に学習することで,この緊張を解消する。
2つのシナジスティックな革新は、厳格なトップダウン学習原則を強制する。
まず、カスケードデコーダは、シーンセマンティクスからオブジェクトインスタンスからピクセル詳細へ順次再構成し、並列デコーダがキャプチャできない明示的な粒度の依存関係を確立する。
第二に、プログレッシブマスキングのカリキュラムは、トレーニングの焦点を意味誘導からインスタンス誘導へ、そして最後にランダムマスキングへと動的にシフトさせ、グローバルな文脈からローカルな特徴へ構造化された学習パスを作成する。
このフレームワークをサポートするために、我々は1.28M ImageNet-1K画像に対して高品質な擬似ラベル付き大規模マルチグラニュラーデータセットを構築した。
C2FMAEは画像分類,オブジェクト検出,セマンティックセグメンテーションにおいて顕著な性能向上を実現し,より堅牢で一般化可能な表現を学習する上での階層的設計の有効性を検証した。
関連論文リスト
- RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration [94.49712266736141]
RAM++はオールインワンイメージ復元のための2段階のフレームワークである。
高レベルのセマンティック理解と低レベルのテクスチャ生成を統合する。
極端なシナリオでは、既存の劣化指向のメソッドの制限に対処します。
論文 参考訳(メタデータ) (2025-09-15T15:24:15Z) - Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T09:40:14Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders [24.73294590182861]
Masked Autoencoding (MAE) は視覚と言語の違いである。
NLPの言葉とは異なり、画像の意味的な分解の欠如は、依然として視覚と言語の間にMAEを異なるものにしている。
意味情報をMAEの学習プロセスに統合するセマンティックガイド型マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-21T09:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。