論文の概要: InfSplign: Inference-Time Spatial Alignment of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.17851v1
- Date: Fri, 19 Dec 2025 17:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.519852
- Title: InfSplign: Inference-Time Spatial Alignment of Text-to-Image Diffusion Models
- Title(参考訳): InfSplign:テキスト-画像拡散モデルの推論時空間アライメント
- Authors: Sarah Rastegar, Violeta Chatalbasheva, Sieger Falkena, Anuj Singh, Yanbo Wang, Tejas Gokhale, Hamid Palangi, Hadi Jamali-Rad,
- Abstract要約: InfSplignは、テキスト・ツー・イメージ・モデルのためのトレーニング不要な推論時間法である。
除音ステップ毎に複合損失によってノイズを調整することで空間アライメントを改善する。
既存の最強の推論時間ベースラインよりもパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 27.206678799411645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models generate high-quality images but often fail to capture the spatial relations specified in text prompts. This limitation can be traced to two factors: lack of fine-grained spatial supervision in training data and inability of text embeddings to encode spatial semantics. We introduce InfSplign, a training-free inference-time method that improves spatial alignment by adjusting the noise through a compound loss in every denoising step. Proposed loss leverages different levels of cross-attention maps extracted from the backbone decoder to enforce accurate object placement and a balanced object presence during sampling. The method is lightweight, plug-and-play, and compatible with any diffusion backbone. Our comprehensive evaluations on VISOR and T2I-CompBench show that InfSplign establishes a new state-of-the-art (to the best of our knowledge), achieving substantial performance gains over the strongest existing inference-time baselines and even outperforming the fine-tuning-based methods. Codebase is available at GitHub.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成するが、しばしばテキスト・プロンプトで指定された空間関係を捉えない。
この制限は、トレーニングデータにおけるきめ細かい空間監督の欠如と、空間意味論をエンコードするテキスト埋め込みの欠如という2つの要因に遡ることができる。
InfSplignは、騒音を複合損失によって調整することで空間的アライメントを改善する訓練不要な推論時間法である。
提案された損失は、バックボーンデコーダから抽出した異なるレベルのクロスアテンションマップを利用して、サンプリング中に正確なオブジェクト配置とバランスの取れたオブジェクトの存在を強制する。
この方法は軽量でプラグアンドプレイで、どんな拡散バックボーンとも互換性がある。
VISORとT2I-CompBenchの総合的な評価から、InfSplignは(私たちの知る限り)新しい最先端技術を確立し、既存の最強の推論時間ベースラインよりも大きなパフォーマンス向上を実現し、微調整ベースの手法よりも優れています。
CodebaseはGitHubで入手できる。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [18.89863162308386]
CoMPaSSはT2Iモデルにおける空間的理解を強化する汎用フレームワークである。
まずSCOP(Spatial Constraints-Oriented Pairing)データエンジンでデータのあいまいさに対処する。
これらの先行技術を活用するため、CoMPaSSはToken ENcoding ORdering (TENOR)モジュールも導入している。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。
具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - Improving Consistency in Diffusion Models for Image Super-Resolution [28.945663118445037]
拡散法における2種類の矛盾を観測する。
セマンティックとトレーニング-推論の組み合わせを扱うために、ConsisSRを導入します。
本手法は,既存拡散モデルにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。