論文の概要: CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.13195v2
- Date: Mon, 25 Aug 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.431645
- Title: CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models
- Title(参考訳): CoMPaSS:テキスト・画像拡散モデルにおける空間的理解の促進
- Authors: Gaoyang Zhang, Bingtao Fu, Qingnan Fan, Qi Zhang, Runxing Liu, Hong Gu, Huaqi Zhang, Xinguo Liu,
- Abstract要約: CoMPaSSはT2Iモデルにおける空間的理解を強化する汎用フレームワークである。
まずSCOP(Spatial Constraints-Oriented Pairing)データエンジンでデータのあいまいさに対処する。
これらの先行技術を活用するため、CoMPaSSはToken ENcoding ORdering (TENOR)モジュールも導入している。
- 参考スコア(独自算出の注目度): 18.89863162308386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models excel at generating photorealistic images but often fail to render accurate spatial relationships. We identify two core issues underlying this common failure: 1) the ambiguous nature of data concerning spatial relationships in existing datasets, and 2) the inability of current text encoders to accurately interpret the spatial semantics of input descriptions. We propose CoMPaSS, a versatile framework that enhances spatial understanding in T2I models. It first addresses data ambiguity with the Spatial Constraints-Oriented Pairing (SCOP) data engine, which curates spatially-accurate training data via principled constraints. To leverage these priors, CoMPaSS also introduces the Token ENcoding ORdering (TENOR) module, which preserves crucial token ordering information lost by text encoders, thereby reinforcing the prompt's linguistic structure. Extensive experiments on four popular T2I models (UNet and MMDiT-based) show CoMPaSS sets a new state of the art on key spatial benchmarks, with substantial relative gains on VISOR (+98%), T2I-CompBench Spatial (+67%), and GenEval Position (+131%). Code is available at https://github.com/blurgyy/CoMPaSS.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、フォトリアリスティックな画像を生成するのに優れるが、しばしば正確な空間関係のレンダリングに失敗する。
この共通の失敗の根底にある2つの中核的な問題を特定します。
1)既存のデータセットにおける空間的関係に関するデータの曖昧性
2)入力記述の空間的意味を正確に解釈する現在のテキストエンコーダが存在しないこと。
本稿では,T2Iモデルにおける空間的理解を高める多目的フレームワークであるCoMPaSSを提案する。
まず、SCOP(Spatial Constraints-Oriented Pairing)データエンジンによるデータのあいまいさに対処する。
これらの先行情報を活用するため、CoMPaSSはテキストエンコーダによって失われる重要なトークン順序情報を保持するToken ENcoding ORdering (TENOR)モジュールを導入し、プロンプトの言語構造を補強する。
4つの一般的なT2Iモデル(UNetとMMDiTをベースとする)の大規模な実験により、CoMPaSSはVISOR(+98%)、T2I-CompBench空間(+67%)、GenEval位置(+131%)で相当な相対的なゲインを持つ主要な空間ベンチマークに新しい最先端を設定できた。
コードはhttps://github.com/blurgyy/CoMPaSSで入手できる。
関連論文リスト
- ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。
生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-18T15:21:37Z) - Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis [5.869767284889891]
拡散ベースのテキスト・ツー・イメージ(T2I)モデルは高品質な画像生成に優れています。
空間コヒーレントなT2I合成のための新しいトレーニング不要なアプローチSTORMを提案する。
論文 参考訳(メタデータ) (2025-03-28T06:12:25Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - HSLiNets: Hyperspectral Image and LiDAR Data Fusion Using Efficient Dual Non-Linear Feature Learning Networks [7.06787067270941]
新しい線形特徴空間におけるハイパースペクトルイメージング(HSI)とLiDARデータの統合は、HSIに固有の高次元性と冗長性に起因する課題に対する有望な解決策を提供する。
本研究では、双方向逆畳み込み畳み込みニューラルネットワーク(CNN)経路と特殊空間解析ブロックを併用した、二重線型融合空間フレームワークを提案する。
提案手法は,データ処理や分類精度を向上するだけでなく,トランスフォーマーなどの先進モデルに係わる計算負担を軽減する。
論文 参考訳(メタデータ) (2024-11-30T01:08:08Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - IGAN: Inferent and Generative Adversarial Networks [0.0]
IGANは複雑な高次元データ分布における生成モデルと推論モデルの両方を学習する。
画像と潜伏空間の両方で敵の戦略を書き換えることで、従来のGANフレームワークを推論で拡張する。
論文 参考訳(メタデータ) (2021-09-27T21:48:35Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。