論文の概要: Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
- arxiv url: http://arxiv.org/abs/2511.06876v1
- Date: Mon, 10 Nov 2025 09:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.18099
- Title: Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
- Title(参考訳): 1000の単語から画像を生成する:構造化キャプションによるテキストから画像への変換
- Authors: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady,
- Abstract要約: 我々は、長文の字幕上で、最初のオープンソーステキスト・ツー・イメージモデルを訓練する。
長いキャプションを効率的に処理するために,DimFusionを提案する。
また,テキスト・アズ・ア・ブートネック・コンストラクション(TaBR)の評価プロトコルについても紹介する。
- 参考スコア(独自算出の注目度): 33.440447854396446
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO
- Abstract(参考訳): テキスト・ツー・イメージ・モデルは、カジュアルなクリエイティブ・ツールからプロフェッショナル・グレード・システムへと急速に進化し、前例のない画質とリアリズムを実現している。
しかし、ほとんどのモデルはショートプロンプトを詳細な画像にマッピングするように訓練されており、スパーステキスト入力とリッチビジュアルアウトプットのギャップが生じる。
このミスマッチは、平均的なユーザの嗜好に偏り、プロフェッショナル使用の正確さを制限するため、モデルが不自由な詳細を任意に埋めることが少なくない。
この制限に対処するために、長い字幕で最初のオープンソーステキスト・ツー・イメージモデルをトレーニングし、各トレーニングサンプルに同じ微粒な属性のセットをアノテートする。
この設計は、表現的カバレッジを最大化し、視覚的要因のアンタングル制御を可能にする。
長文キャプションを効率的に処理するために,トークン長を増大させることなく軽量LCMから中間トークンを統合する融合機構であるDimFusionを提案する。
また,テキスト・アズ・ア・ブートネック・コンストラクション(TaBR)の評価プロトコルについても紹介する。
キャプション生成ループによる実際の画像の再現性を評価することにより、既存の評価方法が失敗する非常に長いキャプションであっても、TaBRは直接的に可制御性と表現性を計測する。
最後に、大規模モデルFIBOをトレーニングし、オープンソースモデル間の最先端の迅速なアライメントを実現することで、コントリビューションを実証する。
モデルウェイトはhttps://huggingface.co/briaai/FIBOで公開されている。
関連論文リスト
- UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。