論文の概要: Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
- arxiv url: http://arxiv.org/abs/2601.10332v1
- Date: Thu, 15 Jan 2026 12:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.1294
- Title: Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
- Title(参考訳): Think-Then-Generate: LLMエンコーダを用いた推論とテキスト・画像拡散
- Authors: Siqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng,
- Abstract要約: 本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルのためのシンプソン・リライト(T2G)パラダイムを提案する。
推論に基づく画像生成と編集ベンチマークにより,現実の一貫性,セマンティックアライメント,視覚的リアリズムが大幅に改善された。
この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
- 参考スコア(独自算出の注目度): 46.79030733172859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)拡散モデル(DM)の最近の進歩は、多様なテキスト・プロンプトから高品質な視覚合成を可能にしている。
しかし、既存のほとんどのT2I DMは、大きな言語モデル(LLM)ベースのテキストエンコーダを備えたものでさえも、テキスト・ピクセル・マッパーであり、テキストエンコーダとしてのみLLMを使用し、テキストのプロンプトから視覚的に表現されるべきものを推測する固有の推論機能を利用する。
このようなリテラル生成を超えて、LLMベースのテキストエンコーダに生ユーザプロンプトの推論と書き直しを推奨するシンクthen-generate(T2G)パラダイムを提案し、書き直しプロンプトの状態が拡散条件として機能する。
そこで我々はまず,LLMエンコーダのシンク・then-rewriteパターンを,軽量な教師付き微調整プロセスで活性化する。
その後、LLMエンコーダと拡散バックボーンが協調最適化され、Dual-GRPOを介して意味論の文脈と正確なレンダリングに関する忠実な推論が保証される。
特に、テキストエンコーダは、世界知識を推論し、思い出させるために画像グラウンドの報酬を用いて強化され、拡散バックボーンは意味的に一貫性があり、視覚的に一貫性のある画像を生成する。
GPT-4とほぼ同等のWISEスコアで0.79を達成し、推論ベースの画像生成と編集ベンチマークによる現実の一貫性、セマンティックアライメント、視覚リアリズムを大幅に改善した。
この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
関連論文リスト
- Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation [30.041283605038316]
多くのテキスト・ツー・イメージモデルでは、T5とCLIPをテキストエンコーダとして採用している。
私たちは、異なるテキスト埋め込みの効果を分離し、評価できるように、標準化されたトレーニングと評価パイプラインを構築します。
実験の結果, 最終層埋め込みを条件付けとして使用するというデファクトな手法は, 性能を低下させることがわかった。
論文 参考訳(メタデータ) (2025-06-09T20:29:53Z) - EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [41.63451923844824]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。