論文の概要: CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions
- arxiv url: http://arxiv.org/abs/2411.16828v1
- Date: Mon, 25 Nov 2024 18:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:29.468821
- Title: CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions
- Title(参考訳): CLIPS: 合成キャプションによる学習のための強化されたCLIPフレームワーク
- Authors: Yanqing Liu, Xianhang Li, Zeyu Wang, Bingchen Zhao, Cihang Xie,
- Abstract要約: リッチに記述された合成キャプションをより効果的に活用するための2つのシンプルで効果的な設計を提案する。
まず,合成キャプションを用いた学習において,強い逆効果が観察される。
第二に、自己回帰キャプタを組み込んで、再カプセル化プロセスを模倣する。
- 参考スコア(独自算出の注目度): 31.624782806591682
- License:
- Abstract: Previous works show that noisy, web-crawled image-text pairs may limit vision-language pretraining like CLIP and propose learning with synthetic captions as a promising alternative. Our work continues this effort, introducing two simple yet effective designs to better leverage richly described synthetic captions. Firstly, by observing a strong inverse effect in learning with synthetic captions -- the short synthetic captions can generally lead to MUCH higher performance than full-length ones -- we therefore fed only partial synthetic captions to the text encoder. Secondly, we incorporate an autoregressive captioner to mimic the recaptioning process -- by conditioning on the paired image input and web-crawled text description, the captioner learns to predict the full-length synthetic caption generated by advanced MLLMs. Experiments show that our framework significantly improves zero-shot performance in cross-modal retrieval tasks, setting new SOTA results on MSCOCO and Flickr30K. Moreover, such trained vision encoders can enhance the visual capability of LLaVA, showing strong improvements on a range of MLLM benchmarks. Our project page is https://ucsc-vlaa.github.io/CLIPS/.
- Abstract(参考訳): 従来の研究は、Webcrawled Image-text pairsがCLIPのような視覚言語事前学習を制限する可能性を示し、将来的な代替手段として合成キャプションを用いた学習を提案する。
私たちの研究は、リッチに記述された合成キャプションをより活用するために、2つのシンプルで効果的な設計を導入し続けています。
まず, 合成キャプションを用いた学習における強い逆効果を観察することにより, 短い合成キャプションは, フル長のキャプションよりもMUCHの方が高い性能が得られる。したがって, 部分的な合成キャプションのみをテキストエンコーダに供給する。第2に, 自動回帰キャプターを組み込んで, ペア画像入力とウェブクローステキスト記述を条件付け, 高度MLLMが生成する完全長合成キャプションを予測する。
実験により,MSCOCOとFlickr30Kに新たなSOTA結果を設定することにより,クロスモーダル検索タスクにおけるゼロショット性能を著しく向上することが示された。
さらに、このような訓練された視覚エンコーダは、LLaVAの視覚能力を高めることができ、MLLMベンチマークの幅が大幅に改善されている。
私たちのプロジェクトページはhttps://ucsc-vlaa.github.io/CLIPS/です。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。