論文の概要: AEMIM: Adversarial Examples Meet Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2407.11537v1
- Date: Tue, 16 Jul 2024 09:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:42:36.607414
- Title: AEMIM: Adversarial Examples Meet Masked Image Modeling
- Title(参考訳): AEMIM:マズード画像モデリングを例に
- Authors: Wenzhao Xiang, Chang Liu, Hang Su, Hongyang Yu,
- Abstract要約: 本稿では,新たな再構成対象として,敵対例をマスク画像モデリングに組み込むことを提案する。
特に、原画像に対応する敵の例を再構成する、新しい補助的前文タスクを導入する。
また,MIM事前学習において,より適切な対戦例を構築するために,革新的な敵攻撃を考案する。
- 参考スコア(独自算出の注目度): 12.072673694665934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has gained significant traction for its remarkable prowess in representation learning. As an alternative to the traditional approach, the reconstruction from corrupted images has recently emerged as a promising pretext task. However, the regular corrupted images are generated using generic generators, often lacking relevance to the specific reconstruction task involved in pre-training. Hence, reconstruction from regular corrupted images cannot ensure the difficulty of the pretext task, potentially leading to a performance decline. Moreover, generating corrupted images might introduce an extra generator, resulting in a notable computational burden. To address these issues, we propose to incorporate adversarial examples into masked image modeling, as the new reconstruction targets. Adversarial examples, generated online using only the trained models, can directly aim to disrupt tasks associated with pre-training. Therefore, the incorporation not only elevates the level of challenge in reconstruction but also enhances efficiency, contributing to the acquisition of superior representations by the model. In particular, we introduce a novel auxiliary pretext task that reconstructs the adversarial examples corresponding to the original images. We also devise an innovative adversarial attack to craft more suitable adversarial examples for MIM pre-training. It is noted that our method is not restricted to specific model architectures and MIM strategies, rendering it an adaptable plug-in capable of enhancing all MIM methods. Experimental findings substantiate the remarkable capability of our approach in amplifying the generalization and robustness of existing MIM methods. Notably, our method surpasses the performance of baselines on various tasks, including ImageNet, its variants, and other downstream tasks.
- Abstract(参考訳): マスク付き画像モデリング(MIM)は,表現学習において顕著な進歩を遂げている。
従来の手法の代替として、腐敗した画像からの復元が、最近、有望な前提課題として浮上した。
しかし、正規の劣化画像はジェネリックジェネレータを用いて生成され、しばしば事前学習に関わる特定の再構成タスクに関連性がない。
したがって、通常の劣化画像からの再構成は、プリテキストタスクの難しさを保証できないため、性能低下につながる可能性がある。
さらに、劣化した画像を生成すると、余分なジェネレータが導入され、計算負荷が顕著になる可能性がある。
これらの課題に対処するために,新たな再構成対象として,敵の例をマスク画像モデリングに組み込むことを提案する。
トレーニング済みモデルのみを使用してオンラインで生成された逆例は、事前トレーニングに関連するタスクを直接的に破壊することを目的としている。
したがって, 組織化は再建における課題のレベルを高くするだけでなく, 効率の向上にも寄与し, モデルによる優れた表現の獲得に寄与する。
特に、原画像に対応する敵の例を再構成する、新しい補助的前文タスクを導入する。
また,MIM事前学習において,より適切な対戦例を構築するために,革新的な敵攻撃を考案する。
また,本手法は特定のモデルアーキテクチャやMIM戦略に限らず,すべてのMIM手法を拡張できる適応可能なプラグインであることを示す。
既存のMIM法の一般化とロバスト性を増幅する手法として,本手法の顕著な能力について実験的に検証した。
特に,本手法は,ImageNetやその変種,下流タスクなど,さまざまなタスクにおけるベースラインのパフォーマンスを上回ります。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Focus On What Matters: Separated Models For Visual-Based RL Generalization [16.87505461758058]
一般化のための分離モデル(SMG)は、一般化のための画像再構成を利用する新しいアプローチである。
SMGは、異なるシナリオにわたるタスク関連領域へのエージェントの焦点を導くために、さらに2つの一貫性を失った。
DMCの実験では、SMGの一般化におけるSOTA性能、特にビデオ背景設定において優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-29T04:37:56Z) - Membership Inference Attack Against Masked Image Modeling [29.699606401861818]
Masked Image Modeling (MIM)は、視覚認識のための自己教師付き学習(SSL)の領域で大きな成功を収めた。
本研究では、MIMの事前学習データプライバシーを研究することで、異なる角度を採る。
MIMにより事前訓練された画像エンコーダに対する最初のメンバシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-13T11:34:28Z) - Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文 参考訳(メタデータ) (2024-07-22T17:54:41Z) - Double-Flow GAN model for the reconstruction of perceived faces from brain activities [13.707575848841405]
そこで我々はDouble-Flow GANと呼ばれる新しい再構築フレームワークを提案する。
また,画像から抽出した特徴を条件として,fMRIから条件付き再構成モデルを事前学習するための事前学習プロセスも設計した。
その結果, 提案手法は, 複数の顔特性を正確に再構成し, 過去の再現モデルより優れ, 最先端の復元能力を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-12T18:07:57Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - PGDiff: Guiding Diffusion Models for Versatile Face Restoration via
Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。
実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。
提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文 参考訳(メタデータ) (2023-09-19T17:51:33Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。