論文の概要: Chain-of-Image Generation: Toward Monitorable and Controllable Image Generation
- arxiv url: http://arxiv.org/abs/2512.08645v1
- Date: Tue, 09 Dec 2025 14:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.999328
- Title: Chain-of-Image Generation: Toward Monitorable and Controllable Image Generation
- Title(参考訳): チェーン・オブ・イメージ生成:監視可能・制御可能な画像生成に向けて
- Authors: Young Kyung Kim, Oded Schlesinger, Yuzhou Zhao, J. Matias Di Martino, Guillermo Sapiro,
- Abstract要約: CoIG(Chain-of-Image Generation)フレームワークは、画像生成を、人間がアートを作成する方法に類似したシーケンシャルでセマンティックなプロセスとして再構成する。
実験結果から,CoIGは確立されたベースラインモデルと比較して,競争力のあるロバスト性を実現しつつ,定量的監視性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 7.987662261007762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art image generation models achieve remarkable visual quality, their internal generative processes remain a "black box." This opacity limits human observation and intervention, and poses a barrier to ensuring model reliability, safety, and control. Furthermore, their non-human-like workflows make them difficult for human observers to interpret. To address this, we introduce the Chain-of-Image Generation (CoIG) framework, which reframes image generation as a sequential, semantic process analogous to how humans create art. Similar to the advantages in monitorability and performance that Chain-of-Thought (CoT) brought to large language models (LLMs), CoIG can produce equivalent benefits in text-to-image generation. CoIG utilizes an LLM to decompose a complex prompt into a sequence of simple, step-by-step instructions. The image generation model then executes this plan by progressively generating and editing the image. Each step focuses on a single semantic entity, enabling direct monitoring. We formally assess this property using two novel metrics: CoIG Readability, which evaluates the clarity of each intermediate step via its corresponding output; and Causal Relevance, which quantifies the impact of each procedural step on the final generated image. We further show that our framework mitigates entity collapse by decomposing the complex generation task into simple subproblems, analogous to the procedural reasoning employed by CoT. Our experimental results indicate that CoIG substantially enhances quantitative monitorability while achieving competitive compositional robustness compared to established baseline models. The framework is model-agnostic and can be integrated with any image generation model.
- Abstract(参考訳): 最先端の画像生成モデルは目覚ましい品質を達成するが、内部生成過程は「ブラックボックス」のままである。
この不透明さは人間の観察と介入を制限し、モデルの信頼性、安全性、制御を保証する障壁となる。
さらに、その非人間的なワークフローは、人間の観察者が解釈することを困難にしている。
これを解決するために、画像生成を人間の制作方法に類似したシーケンシャルなセマンティックなプロセスとして再構成するChain-of-Image Generation (CoIG)フレームワークを導入する。
Chain-of-Thought(CoT)が大規模言語モデル(LLM)に導入した監視性とパフォーマンスの利点と同様に、CoIGはテキスト・ツー・イメージ生成において同等の利点をもたらすことができる。
CoIGはLLMを使用して複雑なプロンプトを単純なステップバイステップ命令のシーケンスに分解する。
画像生成モデルは、画像を段階的に生成し、編集することにより、この計画を実行する。
各ステップは単一のセマンティックエンティティに焦点を当て、直接監視を可能にする。
我々はこの特性を2つの新しい指標を用いて公式に評価する: CoIG Readability, 対応する出力を介して各中間ステップの明度を評価するCoIG Readability, および、各プロシージャステップが最終生成画像に与える影響を定量化するCausal Relevance。
さらに、我々は、複雑な生成タスクを単純なサブプロブレムに分解することで、CoTの手続き的推論に類似したエンティティ崩壊を緩和することを示した。
実験結果から,CoIGは確立されたベースラインモデルと比較して,競争性のある構成ロバスト性を実現しつつ,定量的監視性を大幅に向上することが示された。
このフレームワークはモデルに依存しないため、任意の画像生成モデルと統合することができる。
関連論文リスト
- HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - CoC-GAN: Employing Context Cluster for Unveiling a New Pathway in Image
Generation [12.211795836214112]
本稿では,画像から一組の点雲へ変換する観点から,ユニークな画像生成プロセスを提案する。
我々の手法は、コンテキストクラスタリング(CoC)と呼ばれる単純なクラスタリング手法を利用して、順序のない点集合から画像を生成する。
我々は,このモデルをコンテキストクラスタリング生成適応ネットワーク(CoC-GAN)として導入する。
論文 参考訳(メタデータ) (2023-08-23T01:19:58Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。