論文の概要: SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.13866v1
- Date: Tue, 19 Aug 2025 14:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.95105
- Title: SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation
- Title(参考訳): SAGA:改良されたテキスト・画像生成のための信号適応分布学習
- Authors: Paul Grimal, Michaël Soumm, Hervé Le Borgne, Olivier Ferret, Akihiro Sugimoto,
- Abstract要約: 最先端のテキスト画像モデルは視覚的に印象的な結果をもたらすが、しばしばテキストプロンプトへの正確なアライメントに苦慮する。
本稿では,ターゲットプロンプトに条件付き高精度分布を学習する手法を提案する。
提案手法は,過度な最適化を緩和する微粒化制御を実現することで,デノナイズプロセス中の信号成分を明示的にモデル化する。
- 参考スコア(独自算出の注目度): 9.212970624261272
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art text-to-image models produce visually impressive results but often struggle with precise alignment to text prompts, leading to missing critical elements or unintended blending of distinct concepts. We propose a novel approach that learns a high-success-rate distribution conditioned on a target prompt, ensuring that generated images faithfully reflect the corresponding prompts. Our method explicitly models the signal component during the denoising process, offering fine-grained control that mitigates over-optimization and out-of-distribution artifacts. Moreover, our framework is training-free and seamlessly integrates with both existing diffusion and flow matching architectures. It also supports additional conditioning modalities -- such as bounding boxes -- for enhanced spatial alignment. Extensive experiments demonstrate that our approach outperforms current state-of-the-art methods. The code is available at https://github.com/grimalPaul/gsn-factory.
- Abstract(参考訳): 最先端のテキスト・トゥ・イメージモデルは視覚的に印象的な結果を生み出すが、しばしばテキスト・プロンプトへの正確なアライメントに苦しむ。
本稿では,ターゲットプロンプトに条件付された高精度分布を学習し,生成した画像が対応するプロンプトを忠実に反映することを保証する手法を提案する。
提案手法は,過度な最適化とアウト・オブ・ディストリビューションのアーチファクトを緩和するきめ細かい制御を実現することで,デノナイジングプロセス中の信号成分を明示的にモデル化する。
さらに、我々のフレームワークはトレーニングなしで、既存の拡散アーキテクチャとフローマッチングアーキテクチャの両方とシームレスに統合されます。
また、空間アライメントの強化のために、バウンディングボックスなど、追加のコンディショニングモダリティもサポートする。
大規模な実験により、我々の手法は最先端の手法よりも優れていることが示された。
コードはhttps://github.com/grimalPaul/gsn-factoryで入手できる。
関連論文リスト
- ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Textual and Visual Prompt Fusion for Image Editing via Step-Wise Alignment [10.82748329166797]
本研究では,生成した視覚的参照とテキストガイダンスを融合したフレームワークを提案する。
私たちのフレームワークは、小さなニューラルネットワークのみを使用して、テキストプロンプトによって直感的に駆動される多様なコンテンツや属性を制御する。
論文 参考訳(メタデータ) (2023-08-30T08:40:15Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。