論文の概要: Compositional Image Synthesis with Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.24133v1
- Date: Tue, 28 Oct 2025 07:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.823527
- Title: Compositional Image Synthesis with Inference-Time Scaling
- Title(参考訳): 推論時間スケーリングによる合成画像合成
- Authors: Minsuk Ji, Sanghyeok Lee, Namhyuk Ahn,
- Abstract要約: レイアウトの忠実性を改善するために、オブジェクト中心のアプローチと自己制限を組み合わせたトレーニング不要のフレームワークを提案する。
近年のテキスト・ツー・イメージ・モデルと比較して,レイアウト・グラウンドを自己修正型推論時間スケーリングと統合することにより,シーンアライメントの強化を実現している。
- 参考スコア(独自算出の注目度): 12.210350828913759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their impressive realism, modern text-to-image models still struggle with compositionality, often failing to render accurate object counts, attributes, and spatial relations. To address this challenge, we present a training-free framework that combines an object-centric approach with self-refinement to improve layout faithfulness while preserving aesthetic quality. Specifically, we leverage large language models (LLMs) to synthesize explicit layouts from input prompts, and we inject these layouts into the image generation process, where a object-centric vision-language model (VLM) judge reranks multiple candidates to select the most prompt-aligned outcome iteratively. By unifying explicit layout-grounding with self-refine-based inference-time scaling, our framework achieves stronger scene alignment with prompts compared to recent text-to-image models. The code are available at https://github.com/gcl-inha/ReFocus.
- Abstract(参考訳): その印象的なリアリズムにもかかわらず、現代のテキスト・ツー・イメージのモデルは構成性に苦慮し、しばしば正確な対象数、属性、空間関係のレンダリングに失敗する。
この課題に対処するため、美的品質を維持しつつレイアウトの忠実性を改善するために、オブジェクト中心のアプローチと自己制限を組み合わせたトレーニング不要のフレームワークを提案する。
具体的には、入力プロンプトから明示的なレイアウトを合成するために、大規模言語モデル(LLM)を活用し、画像生成プロセスにこれらのレイアウトを注入する。
近年のテキスト・ツー・イメージ・モデルと比較して,レイアウト・グラウンドを自己修正型推論時間スケーリングと統合することにより,シーンアライメントの強化を実現している。
コードはhttps://github.com/gcl-inha/ReFocus.comで公開されている。
関連論文リスト
- CountLoop: Training-Free High-Instance Image Generation via Iterative Agent Guidance [47.59187786346473]
我々は、正確なインスタンス制御を備えた拡散モデルを提供するトレーニング不要のフレームワークであるCountLoopを提案する。
COCO Count、T2I CompBench、および2つの新しいハイインスタンスベンチマークの実験は、CountLoopが最大98%のカウント精度を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-18T11:28:02Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。