Fugu-MT 論文翻訳(概要): Masked Frequency Modeling for Self-Supervised Visual Pre-Training

論文の概要: Masked Frequency Modeling for Self-Supervised Visual Pre-Training

arxiv url: http://arxiv.org/abs/2206.07706v1
Date: Wed, 15 Jun 2022 17:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-16 13:24:38.984074
Title: Masked Frequency Modeling for Self-Supervised Visual Pre-Training
Title（参考訳）: 自己教師付き視覚前訓練のためのマスク周波数モデリング
Authors: Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy
Abstract要約: MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。 MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。 MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
参考スコア（独自算出の注目度）: 102.89756957704138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Masked Frequency Modeling (MFM), a unified frequency-domain-based approach for self-supervised pre-training of visual models. Instead of randomly inserting mask tokens to the input embeddings in the spatial domain, in this paper, we shift the perspective to the frequency domain. Specifically, MFM first masks out a portion of frequency components of the input image and then predicts the missing frequencies on the frequency spectrum. Our key insight is that predicting masked components in the frequency domain is more ideal to reveal underlying image patterns rather than predicting masked patches in the spatial domain, due to the heavy spatial redundancy. Our findings suggest that with the right configuration of mask-and-predict strategy, both the structural information within high-frequency components and the low-level statistics among low-frequency counterparts are useful in learning good representations. For the first time, MFM demonstrates that, for both ViT and CNN, a simple non-Siamese framework can learn meaningful representations even using none of the following: (i) extra data, (ii) extra model, (iii) mask token. Experimental results on ImageNet and several robustness benchmarks show the competitive performance and advanced robustness of MFM compared with recent masked image modeling approaches. Furthermore, we also comprehensively investigate the effectiveness of classical image restoration tasks for representation learning from a unified frequency perspective and reveal their intriguing relations with our MFM approach. Project page: https://www.mmlab-ntu.com/project/mfm/index.html.
Abstract（参考訳）: MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。本稿では,空間領域の入力埋め込みにマスクトークンをランダムに挿入する代わりに,その視点を周波数領域にシフトする。具体的には、まずMFMが入力画像の周波数成分の一部をマスクし、周波数スペクトルの欠落周波数を予測する。我々の重要な洞察は、周波数領域におけるマスキング成分の予測は、空間領域におけるマスキングパッチの予測よりも、空間領域におけるマスキングパターンを明らかにすることがより理想的なことである。その結果,マスク・アンド・予測戦略の適切な構成では,高周波数成分の構造情報と低周波数成分間の低レベル統計の両方が優れた表現の学習に有用であることが示唆された。 MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークが、以下のものを使って意味のある表現を学習できることを示した。 (i)余分なデータ (ii)余分なモデル (iii)マスクトークン。 ImageNetといくつかのロバスト性ベンチマークの実験結果は、最近のマスク画像モデリング手法と比較して、MFMの競争性能と高度なロバスト性を示している。さらに,従来の画像復元作業の有効性を,統合周波数の観点から総合的に検討し,MFM手法との興味深い関係を明らかにする。プロジェクトページ: https://www.mmlab-ntu.com/project/mfm/index.html

関連論文リスト

Adaptive Mask-guided K-space Diffusion for Accelerated MRI Reconstruction [19.96167625441933]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。本研究は,k空間データに基づく周波数分布の適応調整を利用する適応マスク(AMDM)に基づく拡散モデルを提案する。実験により,本手法が特定の周波数情報を学習し,MRI再建の質を向上させる能力について検証した。
論文参考訳（メタデータ） (2025-06-23T03:54:53Z)
Dual-Domain Masked Image Modeling: A Self-Supervised Pretraining Strategy Using Spatial and Frequency Domain Masking for Hyperspectral Data [35.34526230299484]
本稿では,ラベルなしデータの大部分を利用するハイパースペクトルデータに対する自己教師付き事前学習戦略を提案する。本稿では,空間領域と周波数領域の両方で動作する新しい二重ドメインマスキング機構を提案する。提案手法を3つの公開HSI分類ベンチマークで評価し,現状の性能を実証した。
論文参考訳（メタデータ） (2025-05-06T06:24:21Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文参考訳（メタデータ） (2024-09-16T15:10:07Z)
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文参考訳（メタデータ） (2024-01-04T08:58:25Z)
Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。 ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文参考訳（メタデータ） (2023-10-28T15:42:07Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。 FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文参考訳（メタデータ） (2022-11-28T14:38:19Z)
The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文参考訳（メタデータ） (2022-04-18T09:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。