論文の概要: Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2604.04746v3
- Date: Wed, 08 Apr 2026 01:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.075489
- Title: Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning
- Title(参考訳): ストロークを思い浮かべて - インターリーブ推論によるプロセス駆動画像生成
- Authors: Lei Zhang, Junjiao Tian, Zhipeng Fan, Kunpeng Li, Jialiang Wang, Weifeng Chen, Markos Georgopoulos, Felix Juefei-Xu, Yuxiang Bao, Julian McAuley, Manling Li, Zecheng He,
- Abstract要約: プロセス駆動画像生成は多段階のパラダイムで、合成をインターリーブな推論軌道に分解する。
プロセス駆動生成の核となる課題は、中間状態のあいまいさに起因する。
2つの相補的な制約を維持する、密集したステップワイドな監視を通じてこの問題に対処する。
- 参考スコア(独自算出の注目度): 59.262311672150055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans paint images incrementally: they plan a global layout, sketch a coarse draft, inspect, and refine details, and most importantly, each step is grounded in the evolving visual states. However, can unified multimodal models trained on text-image interleaved datasets also imagine the chain of intermediate states? In this paper, we introduce process-driven image generation, a multi-step paradigm that decomposes synthesis into an interleaved reasoning trajectory of thoughts and actions. Rather than generating images in a single step, our approach unfolds across multiple iterations, each consisting of 4 stages: textual planning, visual drafting, textual reflection, and visual refinement. The textual reasoning explicitly conditions how the visual state should evolve, while the generated visual intermediate in turn constrains and grounds the next round of textual reasoning. A core challenge of process-driven generation stems from the ambiguity of intermediate states: how can models evaluate each partially-complete image? We address this through dense, step-wise supervision that maintains two complementary constraints: for the visual intermediate states, we enforce the spatial and semantic consistency; for the textual intermediate states, we preserve the prior visual knowledge while enabling the model to identify and correct prompt-violating elements. This makes the generation process explicit, interpretable, and directly supervisable. To validate proposed method, we conduct experiments under various text-to-image generation benchmarks.
- Abstract(参考訳): グローバルなレイアウトを計画し、粗いドラフトをスケッチし、詳細を検査し、精細化する。
しかし、テキストイメージのインターリーブされたデータセットで訓練された統合マルチモーダルモデルは、中間状態の連鎖を想像できるだろうか?
本稿では,多段階のプロセス駆動画像生成手法を提案する。
一つのステップで画像を生成するのではなく、複数のイテレーションにまたがってアプローチを展開し、それぞれがテキスト計画、ビジュアルドラフト、テキストリフレクション、ビジュアルリフレクションの4つのステージで構成されています。
テキスト推論は、視覚状態がどのように進化するかを明確に規定し、生成した視覚中間体は、次のテキスト推論のラウンドを制約し、根拠とする。
プロセス駆動生成の中核的な課題は、中間状態の曖昧さに起因している。
視覚的中間状態に対しては、空間的整合性、意味的整合性、テキスト的中間状態に対しては、事前の視覚的知識を保ちながら、モデルが早期に違反する要素を識別し、修正することができる。
これにより生成プロセスが明確で、解釈可能で、直接監視可能である。
提案手法を検証するため,様々なテキスト・画像生成ベンチマークを用いて実験を行う。
関連論文リスト
- All-in-One Conditioning for Text-to-Image Synthesis [45.22434803596108]
シーングラフ構造の枠組みの中で,テキストと画像の合成を基盤とする新しい手法を提案する。
推論中にソフトな視覚誘導を生成するゼロショットシーングラフベースの条件付け機構を導入する。
これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
論文 参考訳(メタデータ) (2026-02-09T20:16:19Z) - UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文 参考訳(メタデータ) (2025-11-21T03:02:10Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。