論文の概要: Masked Image Contrastive Learning for Efficient Visual Conceptual Pre-training
- arxiv url: http://arxiv.org/abs/2411.09858v1
- Date: Fri, 15 Nov 2024 00:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:21.825965
- Title: Masked Image Contrastive Learning for Efficient Visual Conceptual Pre-training
- Title(参考訳): 効率的な視覚概念事前学習のためのマスク付きイメージコントラスト学習
- Authors: Xiaoyu Yang, Lijian Xu,
- Abstract要約: 本論文では、マスク付き画像コントラスト学習(MiCL)と呼ばれる、効率的な視覚概念表現のためのスケーラブルで簡単な事前学習パラダイムを提案する。
私たちのMiCLアプローチは単純で、パッチをランダムにマスクして、画像内のさまざまなビューを生成し、それらを画像のミニバッチ間で対比します。
MiCLは、手作りのデータ拡張や追加の補助モジュールに頼ることなく、高度にセマンティックな概念表現を効率的に学習する。
- 参考スコア(独自算出の注目度): 0.9716241492471991
- License:
- Abstract: This paper proposes a scalable and straightforward pre-training paradigm for efficient visual conceptual representation called masked image contrastive learning (MiCL). Our MiCL approach is simple: we randomly mask patches to generate different views within an image and contrast them among a mini-batch of images. The core idea behind MiCL consists of two designs. First, masked tokens have the potential to significantly diminish the conceptual redundancy inherent in images, and create distinct views with substantial fine-grained differences on the semantic concept level instead of the instance level. Second, contrastive learning is adept at extracting high-level semantic conceptual features during the pre-training, circumventing the high-frequency interference and additional costs associated with image reconstruction. Importantly, MiCL learns highly semantic conceptual representations efficiently without relying on hand-crafted data augmentations or additional auxiliary modules. Empirically, MiCL demonstrates high scalability with Vision Transformers, as the ViT-L/16 can complete pre-training in 133 hours using only 4 A100 GPUs, achieving 85.8% accuracy in downstream fine-tuning tasks.
- Abstract(参考訳): 本稿では,マスク付き画像コントラスト学習(MiCL)と呼ばれる,効率的な視覚概念表現のための,スケーラブルで簡単な事前学習パラダイムを提案する。
私たちのMiCLアプローチは単純で、パッチをランダムにマスクして、画像内のさまざまなビューを生成し、それらを画像のミニバッチ間で対比します。
MiCLの中核となるアイデアは2つの設計から成り立っている。
まず、マスクされたトークンは、画像に固有の概念的冗長性を著しく減らし、インスタンスレベルではなく、セマンティック概念レベルでかなり微妙な違いを持つ異なるビューを生成する可能性がある。
第二に、コントラスト学習は、事前学習中に高レベルの意味概念的特徴を抽出し、高頻度干渉を回避し、画像再構成に伴う追加コストを回避できる。
重要なことは、MiCLは手作りのデータ拡張や追加補助モジュールに頼ることなく、高度にセマンティックな概念表現を効率的に学習する。
MiCLは、ViT-L/16がわずか4つのA100 GPUを使用して133時間で事前トレーニングを完了し、下流の微調整タスクにおいて85.8%の精度を実現している。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders [24.73294590182861]
Masked Autoencoding (MAE) は視覚と言語の違いである。
NLPの言葉とは異なり、画像の意味的な分解の欠如は、依然として視覚と言語の間にMAEを異なるものにしている。
意味情報をMAEの学習プロセスに統合するセマンティックガイド型マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-21T09:08:32Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。