Fugu-MT 論文翻訳(概要): DreamLIP: Language-Image Pre-training with Long Captions

論文の概要: DreamLIP: Language-Image Pre-training with Long Captions

arxiv url: http://arxiv.org/abs/2403.17007v1
Date: Mon, 25 Mar 2024 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:05:20.524246
Title: DreamLIP: Language-Image Pre-training with Long Captions
Title（参考訳）: DreamLIP: 長いキャプションによる言語イメージの事前トレーニング
Authors: Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen, Yujun Shen,
Abstract要約: MLLM(Multi-modality Large Language Model)を用いた詳細な記述を伴う30M画像の再キャプチャそこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数の正のペアを構築することを提案する。画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。
参考スコア（独自算出の注目度）: 42.4063624671045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language-image pre-training largely relies on how precisely and thoroughly a text describes its paired image. In practice, however, the contents of an image can be so rich that well describing them requires lengthy captions (e.g., with 10 sentences), which are usually missing in existing datasets. Consequently, there are currently no clear evidences on whether and how language-image pre-training could benefit from long captions. To figure this out, we first re-caption 30M images with detailed descriptions using a pre-trained Multi-modality Large Language Model (MLLM), and then study the usage of the resulting captions under a contrastive learning framework. We observe that, each sentence within a long caption is very likely to describe the image partially (e.g., an object). Motivated by this, we propose to dynamically sample sub-captions from the text label to construct multiple positive pairs, and introduce a grouping loss to match the embeddings of each sub-caption with its corresponding local image patches in a self-supervised manner. Experimental results on a wide rage of downstream tasks demonstrate the consistent superiority of our method, termed DreamLIP, over previous alternatives, highlighting its fine-grained representational capacity. It is noteworthy that, on the tasks of image-text retrieval and semantic segmentation, our model trained with 30M image-text pairs achieves on par or even better performance than CLIP trained with 400M pairs. Project page is available at https://zyf0619sjtu.github.io/dream-lip.
Abstract（参考訳）: 言語イメージの事前学習は、テキストがどのように、正確にそのペア画像を記述するかに大きく依存する。しかし、実際には、画像の内容は非常に豊かであり、それらを記述するには、通常既存のデータセットに欠けている長文のキャプション(例:10文)が必要である。その結果、言語イメージの事前学習が長いキャプションの恩恵を受けるかどうかについては、現時点では明確な証拠はない。そこで我々は,まず,事前学習したMLLM(Multi-modality Large Language Model)を用いて,詳細な記述を伴って,300万枚の画像を再キャプチャし,比較学習の枠組みの下で,結果のキャプションの利用について検討した。長いキャプション内の各文は、画像の一部を部分的に記述する可能性が非常に高い(例えば、オブジェクト)。そこで本研究では,テキストラベルからサブキャプションを動的にサンプリングし,複数のポジティカルペアを構築することを提案し,グループ化損失を導入して,各サブキャプションの埋め込みと対応するローカルイメージパッチを自己管理的にマッチングする。ダウンストリームタスクに対する実験結果から,DreamLIPと呼ばれる手法が従来の方法よりも一貫した優位性を示し,その微細な表現能力を強調した。画像テキスト検索とセマンティックセグメンテーションのタスクでは,30万のイメージテキストペアでトレーニングしたモデルが,4億のペアでトレーニングしたCLIPよりも同等あるいはそれ以上のパフォーマンスを実現している点が注目に値する。プロジェクトページはhttps://zyf0619sjtu.github.io/dream-lip.comで公開されている。

関連論文リスト

A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文参考訳（メタデータ） (2025-02-19T18:35:43Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-07T17:52:56Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Contrastive Vision-Language Alignment Makes Efficient Instruction Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文参考訳（メタデータ） (2023-11-29T03:29:46Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (2022-07-26T17:34:11Z)
CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文参考訳（メタデータ） (2022-04-27T14:40:31Z)
ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文参考訳（メタデータ） (2021-11-18T14:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。