論文の概要: All-in-One Conditioning for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2602.09165v1
- Date: Mon, 09 Feb 2026 20:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.235182
- Title: All-in-One Conditioning for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のためのオールインワン条件付け
- Authors: Hirunima Jayasekara, Chuong Huynh, Yixuan Ren, Christabel Acquaye, Abhinav Shrivastava,
- Abstract要約: シーングラフ構造の枠組みの中で,テキストと画像の合成を基盤とする新しい手法を提案する。
推論中にソフトな視覚誘導を生成するゼロショットシーングラフベースの条件付け機構を導入する。
これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
- 参考スコア(独自算出の注目度): 45.22434803596108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate interpretation and visual representation of complex prompts involving multiple objects, attributes, and spatial relationships is a critical challenge in text-to-image synthesis. Despite recent advancements in generating photorealistic outputs, current models often struggle with maintaining semantic fidelity and structural coherence when processing intricate textual inputs. We propose a novel approach that grounds text-to-image synthesis within the framework of scene graph structures, aiming to enhance the compositional abilities of existing models. Eventhough, prior approaches have attempted to address this by using pre-defined layout maps derived from prompts, such rigid constraints often limit compositional flexibility and diversity. In contrast, we introduce a zero-shot, scene graph-based conditioning mechanism that generates soft visual guidance during inference. At the core of our method is the Attribute-Size-Quantity-Location (ASQL) Conditioner, which produces visual conditions via a lightweight language model and guides diffusion-based generation through inference-time optimization. This enables the model to maintain text-image alignment while supporting lightweight, coherent, and diverse image synthesis.
- Abstract(参考訳): 複数のオブジェクト、属性、空間的関係を含む複雑なプロンプトの正確な解釈と視覚的表現は、テキストと画像の合成において重要な課題である。
近年のフォトリアリスティックな出力生成の進歩にもかかわらず、現在のモデルは複雑なテキスト入力を処理する際に意味的忠実さと構造的コヒーレンスを維持するのに苦労することが多い。
本研究では,シーングラフ構造の枠組みにテキストと画像の合成を基盤として,既存のモデルの構成能力を向上する手法を提案する。
事前のアプローチでは、プロンプトから導出される事前定義されたレイアウトマップを使用することでこの問題に対処しようとしたが、そのような厳密な制約は、しばしば構成の柔軟性と多様性を制限する。
対照的に、ゼロショットのシーングラフに基づく条件付け機構を導入し、推論中にソフトな視覚誘導を生成する。
提案手法のコアとなるAttribute-Size-Quantity-Location(ASQL)コンディショナーは,軽量言語モデルを用いて視覚条件を生成し,推論時間最適化により拡散に基づく生成を誘導する。
これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
関連論文リスト
- Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt [14.734857939203811]
主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。
提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T11:55:06Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Person-in-Context Synthesiswith Compositional Structural Space [59.129960774988284]
本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
論文 参考訳(メタデータ) (2020-08-28T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。