論文の概要: Unicorn: Text-Only Data Synthesis for Vision Language Model Training
- arxiv url: http://arxiv.org/abs/2503.22655v1
- Date: Fri, 28 Mar 2025 17:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:58.653746
- Title: Unicorn: Text-Only Data Synthesis for Vision Language Model Training
- Title(参考訳): Unicorn:ビジョン言語モデルトレーニングのためのテキスト専用データ合成
- Authors: Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang,
- Abstract要約: 視覚言語モデル(VLM)のトレーニングは通常、大規模で高品質な画像テキストペアを必要とするが、そのようなデータの収集や合成にはコストがかかる。
我々は,Unicorn-1.2MとUnicorn-471K-Instructionの2つのデータセットを生成する,クロスインテグレーション3段階マルチモーダルデータ合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.356035738286444
- License:
- Abstract: Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such data is costly. In contrast, text data is abundant and inexpensive, prompting the question: can high-quality multimodal training data be synthesized purely from text? To tackle this, we propose a cross-integrated three-stage multimodal data synthesis framework, which generates two datasets: Unicorn-1.2M and Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we construct 1.2M semantically diverse high-quality captions by expanding sparse caption seeds using large language models (LLMs). In Stage 2: Instruction-Tuning Data Generation, we further process 471K captions into multi-turn instruction-tuning tasks to support complex reasoning. Finally, in Stage 3: Modality Representation Transfer, these textual captions representations are transformed into visual representations, resulting in diverse synthetic image representations. This three-stage process enables us to construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for instruction-tuning, without relying on real images. By eliminating the dependency on real images while maintaining data quality and diversity, our framework offers a cost-effective and scalable solution for VLMs training. Code is available at https://github.com/Yu-xm/Unicorn.git.
- Abstract(参考訳): 視覚言語モデル(VLM)のトレーニングは通常、大規模で高品質な画像テキストペアを必要とするが、そのようなデータの収集や合成にはコストがかかる。
対照的に、テキストデータは豊富で安価であるため、高品質なマルチモーダルトレーニングデータをテキストから純粋に合成できるのか?
そこで本研究では,Unicorn-1.2MとUnicorn-471K-Instructionの2つのデータセットを生成する3段階多モードデータ合成フレームワークを提案する。
舞台1では,大言語モデル(LLM)を用いてスパースキャプションシードを拡大することにより,セマンティックに多彩な高品質なキャプションを1.2Mで構築する。
ステージ2:インストラクションチューニングデータ生成では、複雑な推論をサポートするために、471Kキャプションをマルチターン命令チューニングタスクに処理する。
最後に、Stage 3: Modality Representation Transferでは、これらのテキストキャプション表現は視覚表現に変換され、多様な合成画像表現をもたらす。
この3段階のプロセスにより、プリトレーニング用のUnicorn-1.2Mと、実際の画像に頼らずにインストラクションチューニングのためのUnicorn-471K-インストラクションを構築することができる。
データ品質と多様性を維持しながら、実際の画像への依存をなくすことで、当社のフレームワークは、VLMのトレーニングに費用効率が高くスケーラブルなソリューションを提供する。
コードはhttps://github.com/Yu-xm/Unicorn.gitで入手できる。
関連論文リスト
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。
高品質な命令チューニングデータを生成することができる。
また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文 参考訳(メタデータ) (2025-02-20T18:55:30Z) - BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。