論文の概要: From Scarcity to Efficiency: Improving CLIP Training via Visual-enriched
Captions
- arxiv url: http://arxiv.org/abs/2310.07699v1
- Date: Wed, 11 Oct 2023 17:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:30:34.486413
- Title: From Scarcity to Efficiency: Improving CLIP Training via Visual-enriched
Captions
- Title(参考訳): Scarcityから効率性へ:ビジュアル・リッチ・キャプションによるCLIPトレーニングの改善
- Authors: Zhengfeng Lai, Haotian Zhang, Wentao Wu, Haoping Bai, Aleksei
Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang,
Meng Cao
- Abstract要約: 大規模言語モデル(LLM)を使用してキャプションを書き換える手法は、小規模でキュレートされたデータセットに約束を示す。
本稿では,AltTextsとVisual-Enriched Captionsを併用した新しい混合学習手法を提案する。
VeCLIPは12M設定でCOCOおよびFlickr30k検索タスクを20%以上改善する。
- 参考スコア(独自算出の注目度): 65.89209991758985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web-crawled datasets are pivotal to the success of pre-training
vision-language models, exemplified by CLIP. However, web-crawled AltTexts can
be noisy and potentially irrelevant to images, thereby undermining the crucial
image-text alignment. Existing methods for rewriting captions using large
language models (LLMs) have shown promise on small, curated datasets like CC3M
and CC12M. Nevertheless, their efficacy on massive web-captured captions is
constrained by the inherent noise and randomness in such data. In this study,
we address this limitation by focusing on two key aspects: data quality and
data variety. Unlike recent LLM rewriting techniques, we emphasize exploiting
visual concepts and their integration into the captions to improve data
quality. For data variety, we propose a novel mixed training scheme that
optimally leverages AltTexts alongside newly generated Visual-enriched Captions
(VeC). We use CLIP as one example and adapt the method for CLIP training on
large-scale web-crawled datasets, named VeCLIP. We conduct a comprehensive
evaluation of VeCLIP across small, medium, and large scales of raw data. Our
results show significant advantages in image-text alignment and overall model
performance, underscoring the effectiveness of VeCLIP in improving CLIP
training. For example, VeCLIP achieves a remarkable over 20% improvement in
COCO and Flickr30k retrieval tasks under the 12M setting. For data efficiency,
we also achieve a notable over 3% improvement while using only 14% of the data
employed in the vanilla CLIP and 11% in ALIGN.
- Abstract(参考訳): webクローリングされたデータセットは、ビジュアライゼーション言語モデルの事前学習の成功に重要な役割を果たしている。
しかし、Webcrawled AltTextsは、画像に無関係である可能性があるため、重要な画像テキストアライメントを損なう可能性がある。
大規模な言語モデル(LLM)を使用してキャプションを書き換える既存の方法は、CC3MやCC12Mのような、小さなキュレートされたデータセットで約束されている。
それでも、膨大なキャプションに対するその効果は、そのようなデータに固有のノイズとランダム性によって制限されている。
本研究では,データ品質とデータ多様性の2つの重要な側面に着目し,この制限に対処する。
近年のLCM書き換え技術とは違って,視覚概念の活用とキャプションへの統合を重視し,データ品質の向上を図る。
そこで本研究では,AltTextsとVisual-Enriched Captions (VeC)を併用した新しい混合学習手法を提案する。
私たちは、CLIPを例として使用し、VeCLIPという名前の大規模Webcrawledデータセット上でCLIPトレーニングの手法を適用しました。
我々は,小,中,大規模の生データのVeCLIPを包括的に評価する。
以上の結果から,CLIP訓練におけるVeCLIPの有効性が示唆され,画像テキストアライメントと全体的なモデル性能に有意な優位性を示した。
例えば、VeCLIPは12M設定でCOCOおよびFlickr30k検索タスクを20%以上改善する。
データ効率では、バニラCLIPで使用されるデータの14%とALIGNで11%しか使用せず、3%以上の顕著な改善を実現しています。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - CLIP with Quality Captions: A Strong Pretraining for Vision Tasks [16.208506912410147]
良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
論文 参考訳(メタデータ) (2024-05-14T19:06:24Z) - Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity [11.414069074535007]
大規模な画像キャプチャデータセットを用いたコントラスト言語-画像事前学習は、目覚ましいゼロショットの一般化を実現するための表現を学ぶ。
ベストを確実に一般化するトレーニングデータの小さなサブセットは、未解決の問題のままである。
画像とキャプションの相互共分散を密に保存する部分集合は、より優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-18T21:32:58Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Linear Alignment of Vision-language Models for Image Captioning [9.746397419479447]
本稿では,CLIPのイメージとテキストの埋め込みを線形にマッピングする,より効率的なトレーニングプロトコルを提案する。
これにより、勾配計算の必要性を回避し、ReCapと呼ばれる軽量キャプション方式が実現される。
ReCap on MS-COCO, Flickr30k, VizWiz, MSRVTT。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。