論文の概要: What If We Recaption Billions of Web Images with LLaMA-3?
- arxiv url: http://arxiv.org/abs/2406.08478v1
- Date: Wed, 12 Jun 2024 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:27:35.107764
- Title: What If We Recaption Billions of Web Images with LLaMA-3?
- Title(参考訳): LLaMA-3で何十億ものウェブ画像を取り返したら?
- Authors: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie,
- Abstract要約: 我々はLLaMA-3搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を取得する。
この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。
- 参考スコア(独自算出の注目度): 46.20091244944309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that semantically aligning and enriching textual descriptions of these pairs can significantly enhance model training across various vision-language tasks, particularly text-to-image generation. However, large-scale investigations in this area remain predominantly closed-source. Our paper aims to bridge this community effort, leveraging the powerful and \textit{open-sourced} LLaMA-3, a GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images from the DataComp-1B dataset. Our empirical results confirm that this enhanced dataset, Recap-DataComp-1B, offers substantial benefits in training advanced vision-language models. For discriminative models like CLIP, we observe enhanced zero-shot performance in cross-modal retrieval tasks. For generative models like text-to-image Diffusion Transformers, the generated images exhibit a significant improvement in alignment with users' text instructions, especially in following complex queries. Our project page is https://www.haqtu.me/Recap-Datacomp-1B/
- Abstract(参考訳): Webcrawledイメージテキストペアは本質的にノイズの多いものです。
先行研究は、これらのペアのテキスト記述のセマンティックな整合と強化により、様々な視覚言語タスク、特にテキスト・ツー・イメージ生成におけるモデルトレーニングが大幅に向上することを示した。
しかし、この地域の大規模な調査は、主にクローズドソースのままである。
本稿では,GPT-4 レベル LLM である LLaMA-3 を利用して,このコミュニティの取り組みを橋渡しすることを目的としている。
まず、LLaMA-3-8B搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を再キャプチャするために使用します。
この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。
CLIPのような識別モデルでは、クロスモーダル検索タスクにおけるゼロショット性能の強化が観察される。
テキスト・ツー・イメージ・ディフュージョン・トランスフォーマーのような生成モデルでは、生成した画像はユーザのテキスト命令、特に複雑なクエリに従う際に、大幅に改善されている。
私たちのプロジェクトページはhttps://www.haqtu.me/Recap-Datacomp-1B/です。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - Large Language Models can Share Images, Too! [5.505013339790826]
本稿では,GPT-4 や LLaMA 2 などの大規模言語モデル (LLM) のゼロショット設定における画像共有機能について検討する。
私たちは、リッチなインテント、文のトリガー、画像記述、健全な情報を含むPhotoChat++データセットを紹介します。
広汎な実験により、ゼロショットプロンプトにおいてLDMを備えたDribeRの画像共有能力を解放する。
論文 参考訳(メタデータ) (2023-10-23T10:59:21Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。