論文の概要: CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
- arxiv url: http://arxiv.org/abs/2404.15653v1
- Date: Wed, 24 Apr 2024 05:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:09:25.143249
- Title: CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data
- Title(参考訳): CatLIP: Webスケール画像テキストデータによる2.7倍高速事前学習によるCLIPレベルの視覚認識精度
- Authors: Sachin Mehta, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, Mohammad Rastegari,
- Abstract要約: 本稿では,Web スケールの画像テキストデータに基づく視覚モデルの弱教師付き事前学習を提案する。
提案手法は,画像テキストデータに基づく事前学習を分類タスクとして再編成する。
Webスケールのデータに対する対照的な学習に比べて、トレーニング速度の2.7倍の加速を実現している。
- 参考スコア(独自算出の注目度): 40.88256210436378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has emerged as a transformative method for learning effective visual representations through the alignment of image and text embeddings. However, pairwise similarity computation in contrastive loss between image and text pairs poses computational challenges. This paper presents a novel weakly supervised pre-training of vision models on web-scale image-text data. The proposed method reframes pre-training on image-text data as a classification task. Consequently, it eliminates the need for pairwise similarity computations in contrastive loss, achieving a remarkable $2.7\times$ acceleration in training speed compared to contrastive learning on web-scale data. Through extensive experiments spanning diverse vision tasks, including detection and segmentation, we demonstrate that the proposed method maintains high representation quality. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}.
- Abstract(参考訳): コントラスト学習は、画像とテキストの埋め込みのアライメントを通じて効果的な視覚表現を学習するための変換方法として登場した。
しかし、画像とテキストのペア間の対照的な損失におけるペアワイズ類似性計算は、計算上の問題を引き起こす。
本稿では,Webスケール画像テキストデータに基づく視覚モデルの弱教師付き事前学習を提案する。
提案手法は,画像テキストデータに基づく事前学習を分類タスクとして再編成する。
その結果、対の類似性計算を対照的な損失で不要にし、Webスケールのデータでの対照的な学習と比較して、トレーニング速度の2.7\times$Accelerationを達成した。
検出やセグメンテーションを含む多様な視覚タスクにまたがる広範囲な実験を通じて,提案手法は高い表現品質を維持していることを示す。
トレーニング済みのモデルウェイトとトレーニングレシピとともに、ソースコードは \url{https://github.com/apple/corenet} で公開されています。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Generative Image Inpainting with Segmentation Confusion Adversarial
Training and Contrastive Learning [14.358417509144523]
本稿では,画像インパインティングのための新しい対角的学習フレームワークについて述べる。
SCATは、画素レベルの局所的なトレーニング信号を提供する、インペイントジェネレータとセグメンテーションネットワークの間の対角ゲームを行う。
2つのベンチマークデータセットに対して広範な実験を行い、質的かつ定量的にモデルの有効性と優越性を実証した。
論文 参考訳(メタデータ) (2023-03-23T09:34:17Z) - Cross-Modal Similarity-Based Curriculum Learning for Image Captioning [46.18855398491187]
本稿では,事前学習された視覚言語モデルによって計算されたクロスモーダル類似度を用いた画像キャプションの簡易かつ効率的な難易度測定法を提案する。
COCOデータセットとFlickr30kデータセットの実験から,提案手法はベースラインに対する性能と競合収束速度を向上することが示された。
論文 参考訳(メタデータ) (2022-12-14T07:52:36Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。