論文の概要: DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
- arxiv url: http://arxiv.org/abs/2512.05112v1
- Date: Thu, 04 Dec 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.34007
- Title: DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
- Title(参考訳): DraCo:テキスト間プレビューとレアコンセプト生成のためのCoTとしてのドラフト
- Authors: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li,
- Abstract要約: DraCo(DraCo)は,テキスト・ツー・イメージ生成を向上するための新たなインターリーブな推論パラダイムである。
提案手法はまず,低解像度のドラフト画像をプレビューとして生成し,より具体的で構造的な視覚計画とガイダンスを提供する。
DraCoがGenEval(+8%)、Imagine-Bench(+0.91)、GenEval++(+3%)の大幅な増加を実現
- 参考スコア(独自算出の注目度): 69.69738832428543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.
- Abstract(参考訳): 最近の統合マルチモーダル・大規模言語モデル(MLLM)は、テキスト・ツー・イメージ生成の強化のためのチェーン・オブ・シント(CoT)推論を取り入れた印象的な機能を示している。
しかし、既存のアプローチは限定的であり、モデルは単にスタンドアロンのジェネレータとして扱われるか、抽象的なテキストプランニングに依存している。
この目的のために我々は,CoTのテキストコンテンツと視覚コンテンツの両方を完全に活用し,より優れた計画と検証を行う,新たなインターリーブド推論パラダイムであるDraCo(DraCo)を提案する。
提案手法はまず,低解像度のドラフト画像をプレビューとして生成し,より具体的で構造的な視覚計画とガイダンスを提供する。
そして、本モデル固有の理解能力を用いて、ドラフトと入力プロンプト間の潜在的な意味的ミスアライメントを検証し、超解像による選択的な補正によって改善を行う。
このように、本手法は、テキストプランニングの粗粒度の性質と、稀な属性の組み合わせを生成することの難しさの2つの根本的な課題に対処する。
トレーニングを支援するためにDraCo-240Kをキュレートし、一般的な修正、インスタンス操作、レイアウト再構成を含む3つの原子機能を強化することを目的とした。
DraCoは、インターリーブド推論のための特別な分類子フリーガイダンス(CFG)戦略であるDraCo-CFGによってサポートされ、GenEval(+8%)、Imagine-Bench(+0.91)、GenEval++(+3%)の大幅な増加を実現し、CoTによって強化されたダイレクトジェネレーションやその他のジェネレーションメソッドを著しく上回っている。
関連論文リスト
- HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。