論文の概要: Pre-training with Random Orthogonal Projection Image Modeling
- arxiv url: http://arxiv.org/abs/2310.18737v2
- Date: Sun, 21 Apr 2024 16:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:32:57.978765
- Title: Pre-training with Random Orthogonal Projection Image Modeling
- Title(参考訳): ランダム直交投影画像モデリングによる事前学習
- Authors: Maryam Haghighat, Peyman Moghadam, Shaheer Mohamed, Piotr Koniusz,
- Abstract要約: Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
- 参考スコア(独自算出の注目度): 32.667183132025094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Modeling (MIM) is a powerful self-supervised strategy for visual pre-training without the use of labels. MIM applies random crops to input images, processes them with an encoder, and then recovers the masked inputs with a decoder, which encourages the network to capture and learn structural information about objects and scenes. The intermediate feature representations obtained from MIM are suitable for fine-tuning on downstream tasks. In this paper, we propose an Image Modeling framework based on random orthogonal projection instead of binary masking as in MIM. Our proposed Random Orthogonal Projection Image Modeling (ROPIM) reduces spatially-wise token information under guaranteed bound on the noise variance and can be considered as masking entire spatial image area under locally varying masking degrees. Since ROPIM uses a random subspace for the projection that realizes the masking step, the readily available complement of the subspace can be used during unmasking to promote recovery of removed information. In this paper, we show that using random orthogonal projection leads to superior performance compared to crop-based masking. We demonstrate state-of-the-art results on several popular benchmarks.
- Abstract(参考訳): Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
MIMは画像入力にランダムな作物を適用し、エンコーダで処理し、デコーダでマスクされた入力を復元する。
MIMから得られた中間特徴表現は下流タスクの微調整に適している。
本稿では,MIMのような二元マスキングの代わりに,ランダムな直交射影に基づく画像モデリングフレームワークを提案する。
提案したRandom Orthogonal Projection Image Modeling (ROPIM) は、ノイズ分散の保証された条件下での空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
ROPIMはプロジェクションにランダムなサブスペースを使用し、マスキングのステップを実現するため、サブスペースの簡易補完はアンマスキング時に使用でき、削除された情報の回復を促進することができる。
本稿では,ランダムな直交射影を用いた場合,作物のマスキングよりも優れた性能が得られることを示す。
いくつかの人気のあるベンチマークで最先端の結果を示す。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Constrained Probabilistic Mask Learning for Task-specific Undersampled
MRI Reconstruction [8.44194619347218]
アンダーサンプリング(アンダーサンプリング)は、磁気共鳴イメージング(MRI)において、k空間内のデータ点数をサブサンプリングする一般的な方法である。
データポイントからアンダーサンプリングマスクを直接学習する手法を提案する。
解剖学的に異なる部位で最適なアンダーサンプリングマスクが認められた。
論文 参考訳(メタデータ) (2023-05-25T14:42:04Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Image Generation with Self Pixel-wise Normalization [17.147675335268282]
領域適応正規化(RAN)法はGAN(Generative Adversarial Network)に基づく画像と画像の変換技術で広く用いられている。
本稿では,マスク画像のない画素適応アフィン変換を行うことにより,自己画素ワイド正規化(SPN)と呼ばれる新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:14:31Z) - Grassmannian learning mutual subspace method for image set recognition [43.24089871099157]
本稿では,画像の集合を入力とするオブジェクト認識の問題に対処する(例えば,複数のカメラソースとビデオフレーム)。
本稿では,CNN上に埋め込まれたNN層であるG-LMSM(Grassmannian Learning mutual subspace method)を提案する。
提案手法は,手形認識,顔の識別,顔の感情認識における有効性を示す。
論文 参考訳(メタデータ) (2021-11-08T09:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。