論文の概要: Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2409.10362v1
- Date: Mon, 16 Sep 2024 15:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:10:41.904091
- Title: Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning
- Title(参考訳): 視覚自己監督学習のための周波数誘導型マスキング
- Authors: Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi, Ser-Nam Lim, Wei-Lun Chao, Rajiv Ramnath,
- Abstract要約: 本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
- 参考スコア(独自算出の注目度): 49.275450836604726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel frequency-based Self-Supervised Learning (SSL) approach that significantly enhances its efficacy for pre-training. Prior work in this direction masks out pre-defined frequencies in the input image and employs a reconstruction loss to pre-train the model. While achieving promising results, such an implementation has two fundamental limitations as identified in our paper. First, using pre-defined frequencies overlooks the variability of image frequency responses. Second, pre-trained with frequency-filtered images, the resulting model needs relatively more data to adapt to naturally looking images during fine-tuning. To address these drawbacks, we propose FOurier transform compression with seLf-Knowledge distillation (FOLK), integrating two dedicated ideas. First, inspired by image compression, we adaptively select the masked-out frequencies based on image frequency responses, creating more suitable SSL tasks for pre-training. Second, we employ a two-branch framework empowered by knowledge distillation, enabling the model to take both the filtered and original images as input, largely reducing the burden of downstream tasks. Our experimental results demonstrate the effectiveness of FOLK in achieving competitive performance to many state-of-the-art SSL methods across various downstream tasks, including image classification, few-shot learning, and semantic segmentation.
- Abstract(参考訳): 本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
この方向の先行研究は、入力画像の予め定義された周波数をマスクし、モデルの事前訓練に再構成損失を用いる。
有望な結果を達成する一方で、このような実装には2つの基本的な制限がある。
まず、予め定義された周波数を用いることで、画像周波数応答の変動性を見落としている。
第二に、周波数フィルタ画像で事前訓練された結果のモデルは、微調整中に自然に見える画像に適応するために、比較的多くのデータを必要とする。
これらの欠点に対処するため, フーリエ変換圧縮法をseLf-Knowledge蒸留法 (FOLK) で提案し, 2つの専用アイデアを統合する。
まず、画像圧縮に触発されて、画像周波数応答に基づいてマスクアウト周波数を適応的に選択し、事前学習に適したSSLタスクを作成する。
第二に、知識蒸留により強化された2ブランチのフレームワークを用いて、フィルタされた画像と原画像の両方を入力とし、下流タスクの負担を大幅に軽減する。
実験の結果、FOLKは、画像分類、少数ショット学習、セマンティックセグメンテーションなど、さまざまなダウンストリームタスクにおいて、最先端のSSLメソッドと競合する性能を達成できることを示した。
関連論文リスト
- Self-Calibrated Variance-Stabilizing Transformations for Real-World Image Denoising [19.08732222562782]
教師付き深層学習が画像認知のための選択方法となっている。
一般の信条とは対照的に,ガウスノイズ除去に特化するネットワークを有効活用し,実世界の画像復調に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-24T16:23:46Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - Frequency Dropout: Feature-Level Regularization via Randomized Filtering [24.53978165468098]
深層畳み込みニューラルネットワークは、トレーニング信号から急激な相関を拾うことができる。
本稿では、畳み込みニューラルネットワークが周波数固有の画像特徴を学習するのを防ぐためのトレーニング戦略である周波数ドロップアウトを提案する。
提案手法は,予測精度の向上だけでなく,ドメインシフトに対する堅牢性の向上も示唆している。
論文 参考訳(メタデータ) (2022-09-20T16:42:21Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。