論文の概要: DreamLIP: Language-Image Pre-training with Long Captions
- arxiv url: http://arxiv.org/abs/2403.17007v1
- Date: Mon, 25 Mar 2024 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:05:20.524246
- Title: DreamLIP: Language-Image Pre-training with Long Captions
- Title(参考訳): DreamLIP: 長いキャプションによる言語イメージの事前トレーニング
- Authors: Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen, Yujun Shen,
- Abstract要約: MLLM(Multi-modality Large Language Model)を用いた詳細な記述を伴う30M画像の再キャプチャ
そこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数の正のペアを構築することを提案する。
画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。
- 参考スコア(独自算出の注目度): 42.4063624671045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-image pre-training largely relies on how precisely and thoroughly a text describes its paired image. In practice, however, the contents of an image can be so rich that well describing them requires lengthy captions (e.g., with 10 sentences), which are usually missing in existing datasets. Consequently, there are currently no clear evidences on whether and how language-image pre-training could benefit from long captions. To figure this out, we first re-caption 30M images with detailed descriptions using a pre-trained Multi-modality Large Language Model (MLLM), and then study the usage of the resulting captions under a contrastive learning framework. We observe that, each sentence within a long caption is very likely to describe the image partially (e.g., an object). Motivated by this, we propose to dynamically sample sub-captions from the text label to construct multiple positive pairs, and introduce a grouping loss to match the embeddings of each sub-caption with its corresponding local image patches in a self-supervised manner. Experimental results on a wide rage of downstream tasks demonstrate the consistent superiority of our method, termed DreamLIP, over previous alternatives, highlighting its fine-grained representational capacity. It is noteworthy that, on the tasks of image-text retrieval and semantic segmentation, our model trained with 30M image-text pairs achieves on par or even better performance than CLIP trained with 400M pairs. Project page is available at https://zyf0619sjtu.github.io/dream-lip.
- Abstract(参考訳): 言語イメージの事前学習は、テキストがどのように、正確にそのペア画像を記述するかに大きく依存する。
しかし、実際には、画像の内容は非常に豊かであり、それらを記述するには、通常既存のデータセットに欠けている長文のキャプション(例:10文)が必要である。
その結果、言語イメージの事前学習が長いキャプションの恩恵を受けるかどうかについては、現時点では明確な証拠はない。
そこで我々は,まず,事前学習したMLLM(Multi-modality Large Language Model)を用いて,詳細な記述を伴って,300万枚の画像を再キャプチャし,比較学習の枠組みの下で,結果のキャプションの利用について検討した。
長いキャプション内の各文は、画像の一部を部分的に記述する可能性が非常に高い(例えば、オブジェクト)。
そこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数のポジティカルペアを構築することを提案し,グループ化損失を導入して,各サブキャプションの埋め込みと対応するローカルイメージパッチを自己管理的にマッチングする。
ダウンストリームタスクに対する実験結果から,DreamLIPと呼ばれる手法が従来の方法よりも一貫した優位性を示し,その微細な表現能力を強調した。
画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。
プロジェクトページはhttps://zyf0619sjtu.github.io/dream-lip.comで公開されている。
関連論文リスト
- A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。
画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:35:43Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。