論文の概要: A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations
- arxiv url: http://arxiv.org/abs/2210.16870v1
- Date: Sun, 30 Oct 2022 16:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:07:31.158943
- Title: A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations
- Title(参考訳): 視覚表現学習のためのシンプルで効率的でスケーラブルなマスク付きオートエンコーダ
- Authors: Shlok Mishra, Joshua Robinson, Huiwen Chang, David Jacobs, Aaron
Sarna, Aaron Maschinot, Dilip Krishnan
- Abstract要約: 視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
- 参考スコア(独自算出の注目度): 21.440853288058452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CAN, a simple, efficient and scalable method for self-supervised
learning of visual representations. Our framework is a minimal and conceptually
clean synthesis of (C) contrastive learning, (A) masked autoencoders, and (N)
the noise prediction approach used in diffusion models. The learning mechanisms
are complementary to one another: contrastive learning shapes the embedding
space across a batch of image samples; masked autoencoders focus on
reconstruction of the low-frequency spatial correlations in a single image
sample; and noise prediction encourages the reconstruction of the
high-frequency components of an image. The combined approach results in a
robust, scalable and simple-to-implement algorithm. The training process is
symmetric, with 50% of patches in both views being masked at random, yielding a
considerable efficiency improvement over prior contrastive learning methods.
Extensive empirical studies demonstrate that CAN achieves strong downstream
performance under both linear and finetuning evaluations on transfer learning
and robustness tasks. CAN outperforms MAE and SimCLR when pre-training on
ImageNet, but is especially useful for pre-training on larger uncurated
datasets such as JFT-300M: for linear probe on ImageNet, CAN achieves 75.4%
compared to 73.4% for SimCLR and 64.1% for MAE. The finetuned performance on
ImageNet of our ViT-L model is 86.1%, compared to 85.5% for SimCLR, and 85.4%
for MAE. The overall FLOPs load of SimCLR is 70% higher than CAN for ViT-L
models.
- Abstract(参考訳): 視覚表現の自己教師型学習のためのシンプルで効率的でスケーラブルなCANを導入する。
提案手法は, (c) コントラスト学習, (a) マスク付きオートエンコーダ, (n) 拡散モデルにおける雑音予測手法の最小かつ概念的にクリーンな合成である。
学習メカニズムは、画像サンプルのバッチにまたがる埋め込み空間をコントラスト学習が形成し、マスク付きオートエンコーダは、画像サンプル内の低周波空間相関の再構築に焦点を当て、ノイズ予測は画像の高周波成分の再構成を促進する。
組み合わせたアプローチは、堅牢でスケーラブルでシンプルな実装アルゴリズムをもたらす。
トレーニングプロセスは対称であり、両方のビューのパッチの50%はランダムにマスクされており、従来のコントラスト学習方法よりもかなり効率が向上している。
広範な実証研究により、トランスファー学習とロバストネスタスクの線形および微調整評価の両方において、強い下流性能を達成できることが示されている。
CANはImageNetで事前トレーニングを行う際にMAEとSimCLRより優れているが、特にJFT-300Mのような大規模未処理データセットの事前トレーニングには特に有用である: ImageNetで線形プローブを行う場合、CANはSimCLRで73.4%、MAEで64.1%である。
ViT-LモデルのImageNetのパフォーマンスは86.1%、SimCLRは85.5%、MAEは85.4%である。
SimCLRの全体的なFLOP負荷は、ViT-LモデルのCANよりも70%高い。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - ASteISR: Adapting Single Image Super-resolution Pre-trained Model for Efficient Stereo Image Super-resolution [6.154796157653035]
ステレオ画像超解像(SteISR)の領域に、事前訓練されたシングルイメージ超解像(SISR)トランスフォーマネットワークを転送する方法を提案する。
具体的には、事前訓練されたSISRトランスネットワークに組み込まれたステレオアダプタと空間アダプタの概念を紹介する。
このトレーニング手法を用いることで、Flickr1024データセット上のステレオ画像を正確に0.79dBの精度で推測するSISRモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-07-04T03:12:05Z) - Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。
既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。
提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-06-21T13:03:47Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - EEG-based Image Feature Extraction for Visual Classification using Deep
Learning [0.0]
深層学習モデルを用いた脳波のより微妙な理解を容易にするため,脳波信号を画像として効率的に符号化する方法を開発した。
脳波と組み合わせた画像分類法は,純粋な深層学習法に比べて精度が82%向上した。
論文 参考訳(メタデータ) (2022-09-27T00:50:56Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation [42.37533586611174]
Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。
本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2022-05-27T17:59:36Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。