論文の概要: Structured Captions Improve Prompt Adherence in Text-to-Image Models (Re-LAION-Caption 19M)
- arxiv url: http://arxiv.org/abs/2507.05300v1
- Date: Mon, 07 Jul 2025 01:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.245275
- Title: Structured Captions Improve Prompt Adherence in Text-to-Image Models (Re-LAION-Caption 19M)
- Title(参考訳): テキスト・画像モデルにおけるプロンプトの整合性を改善する構造的キャプション(Re-LAION-Caption 19M)
- Authors: Nicholas Merchant, Haitz Sáez de Ocáriz Borde, Andrei Cristian Popescu, Carlos Garcia Jurado Suarez,
- Abstract要約: Re-LAION-Caption 19Mは,Mistral 7B Instruct-based LLaVA-Nextモデルで生成された19万の1024x1024画像からなる高品質なRe-LAION-5Bのサブセットである。
各キャプションは4つのテンプレート(主題、設定、美学、カメラの詳細)に従う。
PixArt-$Sigma$とStable Diffusion 2を構造化キャプションとランダムにシャッフルしたキャプションの両方を用いて微調整し、構造化バージョンが視覚的質問応答(VQA)モデルを用いて高いテキスト画像アライメントスコアを得ることを示す。
- 参考スコア(独自算出の注目度): 0.9374652839580183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that generative text-to-image models often struggle with prompt adherence due to the noisy and unstructured nature of large-scale datasets like LAION-5B. This forces users to rely heavily on prompt engineering to elicit desirable outputs. In this work, we propose that enforcing a consistent caption structure during training can significantly improve model controllability and alignment. We introduce Re-LAION-Caption 19M, a high-quality subset of Re-LAION-5B, comprising 19 million 1024x1024 images with captions generated by a Mistral 7B Instruct-based LLaVA-Next model. Each caption follows a four-part template: subject, setting, aesthetics, and camera details. We fine-tune PixArt-$\Sigma$ and Stable Diffusion 2 using both structured and randomly shuffled captions, and show that structured versions consistently yield higher text-image alignment scores using visual question answering (VQA) models. The dataset is publicly available at https://huggingface.co/datasets/supermodelresearch/Re-LAION-Caption19M.
- Abstract(参考訳): 生成的テキスト・画像モデルはLAION-5Bのような大規模データセットのノイズや非構造性のために、しばしば迅速な定着に苦慮する。
これによりユーザは、望ましいアウトプットを引き出すために、プロンプトエンジニアリングに大きく依存せざるを得なくなる。
本研究では、トレーニング中に一貫したキャプション構造を強制することで、モデル制御性とアライメントを大幅に改善できることを示す。
Re-LAION-Caption 19Mは,Mistral 7B Instruct-based LLaVA-Nextモデルで生成された19万の1024x1024画像からなる高品質なRe-LAION-5Bのサブセットである。
各キャプションは4つのテンプレート(主題、設定、美学、カメラの詳細)に従う。
PixArt-$\Sigma$とStable Diffusion 2を構造化キャプションとランダムにシャッフルしたキャプションの両方を用いて微調整し、構造化バージョンが視覚的質問応答(VQA)モデルを用いて高いテキスト画像アライメントスコアを得ることを示す。
データセットはhttps://huggingface.co/datasets/supermodelresearch/Re-LAION-Caption19Mで公開されている。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - The Solution for the CVPR2024 NICE Image Captioning Challenge [2.614188906122931]
本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。
論文 参考訳(メタデータ) (2024-04-19T09:32:16Z) - Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding [47.97650346560239]
マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
論文 参考訳(メタデータ) (2023-11-25T17:01:38Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。