論文の概要: MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
- arxiv url: http://arxiv.org/abs/2311.17049v2
- Date: Mon, 1 Apr 2024 13:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:13:26.521878
- Title: MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
- Title(参考訳): MobileCLIP:マルチモーダル強化トレーニングによる高速画像テキストモデル
- Authors: Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel,
- Abstract要約: ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
- 参考スコア(独自算出の注目度): 17.158498267947877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive pretraining of image-text foundation models, such as CLIP, demonstrated excellent zero-shot performance and improved robustness on a wide range of downstream tasks. However, these models utilize large transformer-based encoders with significant memory and latency overhead which pose challenges for deployment on mobile devices. In this work, we introduce MobileCLIP -- a new family of efficient image-text models optimized for runtime performance along with a novel and efficient training approach, namely multi-modal reinforced training. The proposed training approach leverages knowledge transfer from an image captioning model and an ensemble of strong CLIP encoders to improve the accuracy of efficient models. Our approach avoids train-time compute overhead by storing the additional knowledge in a reinforced dataset. MobileCLIP sets a new state-of-the-art latency-accuracy tradeoff for zero-shot classification and retrieval tasks on several datasets. Our MobileCLIP-S2 variant is 2.3$\times$ faster while more accurate compared to previous best CLIP model based on ViT-B/16. We further demonstrate the effectiveness of our multi-modal reinforced training by training a CLIP model based on ViT-B/16 image backbone and achieving +2.9% average performance improvement on 38 evaluation benchmarks compared to the previous best. Moreover, we show that the proposed approach achieves 10$\times$-1000$\times$ improved learning efficiency when compared with non-reinforced CLIP training. Code and models are available at https://github.com/apple/ml-mobileclip .
- Abstract(参考訳): CLIPのような画像テキスト基盤モデルの対照的な事前トレーニングは、優れたゼロショット性能を示し、幅広い下流タスクにおいてロバスト性を改善した。
しかし、これらのモデルは大きなトランスフォーマーベースのエンコーダを使用しており、メモリと遅延のオーバーヘッドが大きいため、モバイルデバイスへのデプロイが困難である。
本研究では,実行時性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPと,マルチモーダル強化トレーニング(マルチモーダル強化トレーニング)を新たに導入する。
提案手法は,画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を利用して,効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
MobileCLIPは、ゼロショット分類と複数のデータセットの検索タスクのための、最先端の遅延精度トレードオフを新たに設定する。
われわれのMobileCLIP-S2は2.3$\times$速く、ViT-B/16をベースにしたCLIPモデルよりも正確である。
さらに,VT-B/16画像バックボーンに基づくCLIPモデルのトレーニングによるマルチモーダル強化トレーニングの有効性を示す。
さらに,提案手法は,非強化CLIPトレーニングと比較して,学習効率が向上する10$\times$-1000$\times$。
コードとモデルはhttps://github.com/apple/ml-mobileclip で公開されている。
関連論文リスト
- Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training [78.63699436330165]
クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。
オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-22T10:07:49Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。