論文の概要: GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2308.11331v1
- Date: Tue, 22 Aug 2023 10:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:18:20.833719
- Title: GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training
- Title(参考訳): GrowCLIP:大規模コントラスト言語画像事前学習のためのデータ認識自動モデル
- Authors: Xinchi Deng, Han Shi, Runhui Huang, Changlin Li, Hang Xu, Jianhua Han,
James Kwok, Shen Zhao, Wei Zhang, Xiaodan Liang
- Abstract要約: クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。
オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
- 参考スコア(独自算出の注目度): 78.63699436330165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal pre-training has shown impressive performance on a wide range of
downstream tasks, benefiting from massive image-text pairs collected from the
Internet. In practice, online data are growing constantly, highlighting the
importance of the ability of pre-trained model to learn from data that is
continuously growing. Existing works on cross-modal pre-training mainly focus
on training a network with fixed architecture. However, it is impractical to
limit the model capacity when considering the continuously growing nature of
pre-training data in real-world applications. On the other hand, it is
important to utilize the knowledge in the current model to obtain efficient
training and better performance. To address the above issues, in this paper, we
propose GrowCLIP, a data-driven automatic model growing algorithm for
contrastive language-image pre-training with continuous image-text pairs as
input. Specially, we adopt a dynamic growth space and seek out the optimal
architecture at each growth step to adapt to online learning scenarios. And the
shared encoder is proposed in our growth space to enhance the degree of
cross-modal fusion. Besides, we explore the effect of growth in different
dimensions, which could provide future references for the design of cross-modal
model architecture. Finally, we employ parameter inheriting with momentum (PIM)
to maintain the previous knowledge and address the issue of the local minimum
dilemma. Compared with the existing methods, GrowCLIP improves 2.3% average
top-1 accuracy on zero-shot image classification of 9 downstream tasks. As for
zero-shot image retrieval, GrowCLIP can improve 1.2% for top-1 image-to-text
recall on Flickr30K dataset.
- Abstract(参考訳): クロスモーダル事前トレーニングは、インターネットから収集された膨大な画像テキストペアの恩恵を受け、幅広い下流タスクで印象的なパフォーマンスを示している。
実際、オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
既存のクロスモーダル事前トレーニングは、主に固定アーキテクチャによるネットワークのトレーニングに焦点を当てている。
しかし、実世界のアプリケーションにおける事前学習データの継続的な増大の性質を考えると、モデル容量を制限することは不可能である。
一方,現行モデルの知識を有効活用して,効率的なトレーニングと性能向上を図ることが重要である。
そこで,本稿では,連続的な画像テキスト対を入力とするコントラスト型言語画像事前学習のためのデータ駆動型自動モデル成長アルゴリズムgroveclipを提案する。
特に、動的な成長空間を採用し、オンライン学習シナリオに適応するための成長ステップごとに最適なアーキテクチャを求めます。
また, 共有エンコーダは, クロスモーダル融合の度合いを高めるために, 成長空間に提案されている。
さらに,クロスモーダルモデルアーキテクチャの設計に関する今後の参考となる,異なる次元における成長の影響についても検討する。
最後に,以前の知識を維持し,局所的最小ジレンマ問題に対処するために,運動量継承パラメータ(pim)を用いる。
既存の手法と比較して、GrowCLIPは9つの下流タスクのゼロショット画像分類における平均トップ1精度を2.3%改善している。
ゼロショット画像検索に関しては、Flickr30Kデータセット上のトップ1画像からテキストへのリコールにおいて、GrowCLIPは1.2%改善できる。
関連論文リスト
- MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Prefix Language Models are Unified Modal Learners [30.666873206462295]
そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。
シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
論文 参考訳(メタデータ) (2022-06-15T17:49:38Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。