論文の概要: Masked Frequency Modeling for Self-Supervised Visual Pre-Training
- arxiv url: http://arxiv.org/abs/2206.07706v2
- Date: Tue, 25 Apr 2023 17:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 00:09:55.940149
- Title: Masked Frequency Modeling for Self-Supervised Visual Pre-Training
- Title(参考訳): 自己教師付き視覚前訓練のためのマスク周波数モデリング
- Authors: Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen
Change Loy
- Abstract要約: MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
- 参考スコア(独自算出の注目度): 102.89756957704138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Masked Frequency Modeling (MFM), a unified frequency-domain-based
approach for self-supervised pre-training of visual models. Instead of randomly
inserting mask tokens to the input embeddings in the spatial domain, in this
paper, we shift the perspective to the frequency domain. Specifically, MFM
first masks out a portion of frequency components of the input image and then
predicts the missing frequencies on the frequency spectrum. Our key insight is
that predicting masked components in the frequency domain is more ideal to
reveal underlying image patterns rather than predicting masked patches in the
spatial domain, due to the heavy spatial redundancy. Our findings suggest that
with the right configuration of mask-and-predict strategy, both the structural
information within high-frequency components and the low-level statistics among
low-frequency counterparts are useful in learning good representations. For the
first time, MFM demonstrates that, for both ViT and CNN, a simple non-Siamese
framework can learn meaningful representations even using none of the
following: (i) extra data, (ii) extra model, (iii) mask token. Experimental
results on image classification and semantic segmentation, as well as several
robustness benchmarks show the competitive performance and advanced robustness
of MFM compared with recent masked image modeling approaches. Furthermore, we
also comprehensively investigate the effectiveness of classical image
restoration tasks for representation learning from a unified frequency
perspective and reveal their intriguing relations with our MFM approach.
- Abstract(参考訳): MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
本稿では,空間領域の入力埋め込みにマスクトークンをランダムに挿入する代わりに,その視点を周波数領域にシフトする。
具体的には、まずMFMが入力画像の周波数成分の一部をマスクし、周波数スペクトルの欠落周波数を予測する。
我々の重要な洞察は、周波数領域におけるマスキング成分の予測は、空間領域におけるマスキングパッチの予測よりも、空間領域におけるマスキングパターンを明らかにすることがより理想的なことである。
その結果,マスク・アンド・予測戦略の適切な構成では,高周波数成分の構造情報と低周波数成分間の低レベル統計の両方が優れた表現の学習に有用であることが示唆された。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークが、以下のものを使って意味のある表現を学習できることを示した。
(i)余分なデータ
(ii)余分なモデル
(iii)マスクトークン。
画像分類と意味セグメンテーションの実験結果およびいくつかのロバスト性ベンチマークは、最近のマスク画像モデリングアプローチと比較して、mfmの競争力と高度なロバスト性を示している。
さらに,従来の画像復元作業の有効性を,統合周波数の観点から総合的に検討し,MFM手法との興味深い関係を明らかにする。
関連論文リスト
- Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。