論文の概要: Masked Image Contrastive Learning for Efficient Visual Conceptual Pre-training
- arxiv url: http://arxiv.org/abs/2411.09858v1
- Date: Fri, 15 Nov 2024 00:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:21.825965
- Title: Masked Image Contrastive Learning for Efficient Visual Conceptual Pre-training
- Title(参考訳): 効率的な視覚概念事前学習のためのマスク付きイメージコントラスト学習
- Authors: Xiaoyu Yang, Lijian Xu,
- Abstract要約: 本論文では、マスク付き画像コントラスト学習(MiCL)と呼ばれる、効率的な視覚概念表現のためのスケーラブルで簡単な事前学習パラダイムを提案する。
私たちのMiCLアプローチは単純で、パッチをランダムにマスクして、画像内のさまざまなビューを生成し、それらを画像のミニバッチ間で対比します。
MiCLは、手作りのデータ拡張や追加の補助モジュールに頼ることなく、高度にセマンティックな概念表現を効率的に学習する。
- 参考スコア(独自算出の注目度): 0.9716241492471991
- License:
- Abstract: This paper proposes a scalable and straightforward pre-training paradigm for efficient visual conceptual representation called masked image contrastive learning (MiCL). Our MiCL approach is simple: we randomly mask patches to generate different views within an image and contrast them among a mini-batch of images. The core idea behind MiCL consists of two designs. First, masked tokens have the potential to significantly diminish the conceptual redundancy inherent in images, and create distinct views with substantial fine-grained differences on the semantic concept level instead of the instance level. Second, contrastive learning is adept at extracting high-level semantic conceptual features during the pre-training, circumventing the high-frequency interference and additional costs associated with image reconstruction. Importantly, MiCL learns highly semantic conceptual representations efficiently without relying on hand-crafted data augmentations or additional auxiliary modules. Empirically, MiCL demonstrates high scalability with Vision Transformers, as the ViT-L/16 can complete pre-training in 133 hours using only 4 A100 GPUs, achieving 85.8% accuracy in downstream fine-tuning tasks.
- Abstract(参考訳): 本稿では,マスク付き画像コントラスト学習(MiCL)と呼ばれる,効率的な視覚概念表現のための,スケーラブルで簡単な事前学習パラダイムを提案する。
私たちのMiCLアプローチは単純で、パッチをランダムにマスクして、画像内のさまざまなビューを生成し、それらを画像のミニバッチ間で対比します。
MiCLの中核となるアイデアは2つの設計から成り立っている。
まず、マスクされたトークンは、画像に固有の概念的冗長性を著しく減らし、インスタンスレベルではなく、セマンティック概念レベルでかなり微妙な違いを持つ異なるビューを生成する可能性がある。
第二に、コントラスト学習は、事前学習中に高レベルの意味概念的特徴を抽出し、高頻度干渉を回避し、画像再構成に伴う追加コストを回避できる。
重要なことは、MiCLは手作りのデータ拡張や追加補助モジュールに頼ることなく、高度にセマンティックな概念表現を効率的に学習する。
MiCLは、ViT-L/16がわずか4つのA100 GPUを使用して133時間で事前トレーニングを完了し、下流の微調整タスクにおいて85.8%の精度を実現している。
関連論文リスト
- FLAVARS: A Multimodal Foundational Language and Vision Alignment Model for Remote Sensing [5.170800801074805]
コントラスト学習とマスクモデリングを組み合わせた事前学習手法であるFLAVARSを提案する。
FLAVARSは、KNN分類のような視覚のみのタスクにおいて、SkyCLIPのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-01-14T23:31:20Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning [28.368429312400885]
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T07:07:29Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - Semantically Contrastive Learning for Low-light Image Enhancement [48.71522073014808]
低照度画像強調(LLE)は、単一のRGB画像の低コントラストと低可視性の問題が好ましくないため、依然として困難である。
LLE(SCL-LLE)のための効果的な意味論的コントラスト学習パラダイムを提案する。
提案手法は6つの独立したクロスシーンデータセット上で,最先端のLLEモデルを上回る。
論文 参考訳(メタデータ) (2021-12-13T07:08:33Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。