論文の概要: Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and
Image Embeddings
- arxiv url: http://arxiv.org/abs/2403.07750v1
- Date: Tue, 12 Mar 2024 15:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 20:52:46.508864
- Title: Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and
Image Embeddings
- Title(参考訳): Synth$^2$: 合成キャプションと画像埋め込みによるビジュアル言語モデルの強化
- Authors: Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan
Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino
- Abstract要約: 高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。
本稿では,Large Language Models(LLMs)と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法を提案する。
- 参考スコア(独自算出の注目度): 16.90107647942174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The creation of high-quality human-labeled image-caption datasets presents a
significant bottleneck in the development of Visual-Language Models (VLMs). We
propose a novel approach that leverages the strengths of Large Language Models
(LLMs) and image generation models to create synthetic image-text pairs for
efficient and effective VLM training. Our method employs pretraining a
text-to-image model to synthesize image embeddings starting from captions
generated by an LLM. These synthetic pairs are then used to train a VLM.
Extensive experiments demonstrate that the VLM trained with synthetic data
exhibits comparable performance on image captioning, while requiring a fraction
of the data used by models trained solely on human-annotated data. In
particular, we outperform the baseline by 17% through augmentation with a
synthetic dataset. Furthermore, we show that synthesizing in the image
embedding space is 25% faster than in the pixel space. This research introduces
a promising technique for generating large-scale, customizable image datasets,
leading to enhanced VLM performance and wider applicability across various
domains, all with improved data efficiency and resource utilization.
- Abstract(参考訳): 高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。
本稿では,Large Language Models(LLMs)と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法を提案する。
本手法では,llmで生成したキャプションから画像埋め込みを合成するために,テキストから画像へのモデルの事前学習を行う。
これらの合成ペアは、VLMのトレーニングに使用される。
大規模な実験により、人工的なデータで訓練されたVLMは画像キャプションに匹敵する性能を示し、人間の注釈付きデータにのみ訓練されたモデルで使用されるデータのごく一部を必要とすることが示されている。
特に、合成データセットの強化によってベースラインを17%上回っています。
さらに,画像埋め込み空間における合成は画素空間よりも25%高速であることを示す。
本研究は、大規模でカスタマイズ可能な画像データセットを生成するための有望な技術を導入し、VLMの性能の向上と様々な領域にわたる適用性の向上、データ効率の向上と資源利用の促進を実現した。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models [39.55942000935765]
視覚大言語モデル(VLLM)のための新しいデータ合成パイプラインであるSynthVLMを紹介する。
画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択する。
我々は、様々な視覚的質問応答タスクにおける最先端(SoTA)のパフォーマンスを達成し、高いアライメント品質を維持し、高度な言語能力を維持する。
論文 参考訳(メタデータ) (2024-07-30T11:57:40Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。