論文の概要: CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework
- arxiv url: http://arxiv.org/abs/2511.05929v1
- Date: Sat, 08 Nov 2025 08:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.659144
- Title: CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework
- Title(参考訳): CoMA: 統一事前学習フレームワークにおける補足型マスキングと階層型動的マルチウィンドウ自己認識
- Authors: Jiaxuan Li, Qing Xu, Xiangjian He, Ziyu Liu, Chang Xing, Zhen Chen, Daokun Zhang, Rong Qu, Chang Wen Chen,
- Abstract要約: Masked Autoencoders (MAE)は、視覚トークンの一部をランダムに除去し、原画像をプリテキストタスクとして再構成することにより、画像表現の自己教師付き学習を実現する。
本研究では,全画素の均一サンプリングを保証するために,補完マスク方式を用いた補完マスク付きオートエンコーダ(CoMA)を提案する。
DM-MSA(Dynamic Multi-Window Self-Attention)を用いた階層型視覚変換器DyViTについても紹介する。
- 参考スコア(独自算出の注目度): 38.280496016533355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoders (MAE) achieve self-supervised learning of image representations by randomly removing a portion of visual tokens and reconstructing the original image as a pretext task, thereby significantly enhancing pretraining efficiency and yielding excellent adaptability across downstream tasks. However, MAE and other MAE-style paradigms that adopt random masking generally require more pre-training epochs to maintain adaptability. Meanwhile, ViT in MAE suffers from inefficient parameter use due to fixed spatial resolution across layers. To overcome these limitations, we propose the Complementary Masked Autoencoders (CoMA), which employ a complementary masking strategy to ensure uniform sampling across all pixels, thereby improving effective learning of all features and enhancing the model's adaptability. Furthermore, we introduce DyViT, a hierarchical vision transformer that employs a Dynamic Multi-Window Self-Attention (DM-MSA), significantly reducing the parameters and FLOPs while improving fine-grained feature learning. Pre-trained on ImageNet-1K with CoMA, DyViT matches the downstream performance of MAE using only 12% of the pre-training epochs, demonstrating more effective learning. It also attains a 10% reduction in pre-training time per epoch, further underscoring its superior pre-training efficiency.
- Abstract(参考訳): マスク付きオートエンコーダ(MAE)は、視覚的トークンの一部をランダムに除去し、原画像をプリテキストタスクとして再構成することにより、画像表現の自己教師付き学習を実現する。
しかしながら、ランダムマスキングを採用するMAEや他のMAEスタイルのパラダイムは、適応性を維持するために、一般的により事前学習のエポックを必要とする。
一方, 層間空間分解能の固定化により, MAE の ViT は非効率なパラメータ使用に悩まされる。
これらの制約を克服するため、補似マスキング方式を用いて全画素を均一にサンプリングし、全ての特徴の効果的な学習を改善し、モデルの適応性を向上する補足マスクオートエンコーダ(CoMA)を提案する。
さらに,MD-MSA(Dynamic Multi-Window Self-Attention)を用いた階層型視覚変換器であるDyViTを導入し,パラメータとFLOPを大幅に削減し,きめ細かい特徴学習を実現した。
ImageNet-1KとCoMAで事前トレーニングされたDyViTは、トレーニング済みのエポックのわずか12%を使用して、MAEの下流のパフォーマンスと照合し、より効果的な学習を示す。
また、エポックあたりの事前トレーニング時間を10%削減し、より優れた事前トレーニング効率を裏付ける。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。
MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。
本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T08:46:53Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。