論文の概要: Iterative Refinement Improves Compositional Image Generation
- arxiv url: http://arxiv.org/abs/2601.15286v1
- Date: Wed, 21 Jan 2026 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.511379
- Title: Iterative Refinement Improves Compositional Image Generation
- Title(参考訳): イテレーティブリファインメントは構成画像生成を改善する
- Authors: Shantanu Jaiswal, Mihir Prabhudesai, Nikash Bhardwaj, Zheyang Qin, Amir Zadeh, Chuan Li, Katerina Fragkiadaki, Deepak Pathak,
- Abstract要約: Text-to-image (T2I)モデルは、複数のオブジェクト、リレーション、属性を同時に扱う必要がある複雑なプロンプトと競合する。
本稿では,T2Iモデルを複数のステップで段階的に改良する反復的テストタイム戦略を提案する。
われわれのアプローチは単純で、外部ツールや事前は必要とせず、幅広い画像生成器や視覚言語モデルに柔軟に適用できる。
- 参考スコア(独自算出の注目度): 47.116050084875106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models have achieved remarkable progress, yet they continue to struggle with complex prompts that require simultaneously handling multiple objects, relations, and attributes. Existing inference-time strategies, such as parallel sampling with verifiers or simply increasing denoising steps, can improve prompt alignment but remain inadequate for richly compositional settings where many constraints must be satisfied. Inspired by the success of chain-of-thought reasoning in large language models, we propose an iterative test-time strategy in which a T2I model progressively refines its generations across multiple steps, guided by feedback from a vision-language model as the critic in the loop. Our approach is simple, requires no external tools or priors, and can be flexibly applied to a wide range of image generators and vision-language models. Empirically, we demonstrate consistent gains on image generation across benchmarks: a 16.9% improvement in all-correct rate on ConceptMix (k=7), a 13.8% improvement on T2I-CompBench (3D-Spatial category) and a 12.5% improvement on Visual Jenga scene decomposition compared to compute-matched parallel sampling. Beyond quantitative gains, iterative refinement produces more faithful generations by decomposing complex prompts into sequential corrections, with human evaluators preferring our method 58.7% of the time over 41.3% for the parallel baseline. Together, these findings highlight iterative self-correction as a broadly applicable principle for compositional image generation. Results and visualizations are available at https://iterative-img-gen.github.io/
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を遂げているが、複数のオブジェクト、リレーション、属性を同時に扱う必要がある複雑なプロンプトに悩まされ続けている。
検証器による並列サンプリングや単純なデノナイジングステップなどの既存の推論時間戦略は、迅速なアライメントを改善することができるが、多くの制約を満たさなければならないリッチな構成的な設定では不十分である。
大規模言語モデルにおけるチェーン・オブ・シークレット推論の成功に触発されて、我々は、T2Iモデルが、ループの批判者としての視覚言語モデルからのフィードバックによって、複数のステップにわたって、その世代を段階的に洗練する反復的テストタイム戦略を提案する。
われわれのアプローチは単純で、外部ツールや事前は必要とせず、幅広い画像生成器や視覚言語モデルに柔軟に適用できる。
実験的に、ベンチマークによる画像生成における一貫した向上を示す:ConceptMix(k=7)の全補正率の16.9%改善、T2I-CompBench(3D-Spatial category)の13.8%改善、計算整合並列サンプリングと比較してVisual Jengaのシーン分解の12.5%改善。
定量的な利得の他に、反復的な改善は複雑なプロンプトを逐次的な修正に分解することでより忠実な世代を生み出す。
これらの知見は, 合成画像生成の原理として, 反復的自己補正が重要である。
結果と視覚化はhttps://iterative-img-gen.github.io/で公開されている。
関連論文リスト
- GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。
本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。
我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文 参考訳(メタデータ) (2025-12-24T16:46:04Z) - ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion [18.25085327318649]
ProxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。
我々は, LAION-Face-T2I-15Mと呼ばれる, 微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発した。
論文 参考訳(メタデータ) (2025-11-24T04:10:53Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。