論文の概要: CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.13195v1
- Date: Tue, 17 Dec 2024 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:16.205131
- Title: CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models
- Title(参考訳): CoMPaSS:テキスト・画像拡散モデルにおける空間的理解の促進
- Authors: Gaoyang Zhang, Bingtao Fu, Qingnan Fan, Qi Zhang, Runxing Liu, Hong Gu, Huaqi Zhang, Xinguo Liu,
- Abstract要約: CoMPaSSは任意のT2I拡散モデルの空間的理解を高める汎用的なトレーニングフレームワークである。
CoMPaSSは空間制約指向ペアリング(SCOP)データエンジンを用いて空間関連データのあいまいさを解決する。
CoMPaSSは、キュレートされた高品質な空間先行をうまく活用するために、Token ENcoding ORdering (TENOR)モジュールを導入した。
- 参考スコア(独自算出の注目度): 13.992486106252716
- License:
- Abstract: Text-to-image diffusion models excel at generating photorealistic images, but commonly struggle to render accurate spatial relationships described in text prompts. We identify two core issues underlying this common failure: 1) the ambiguous nature of spatial-related data in existing datasets, and 2) the inability of current text encoders to accurately interpret the spatial semantics of input descriptions. We address these issues with CoMPaSS, a versatile training framework that enhances spatial understanding of any T2I diffusion model. CoMPaSS solves the ambiguity of spatial-related data with the Spatial Constraints-Oriented Pairing (SCOP) data engine, which curates spatially-accurate training data through a set of principled spatial constraints. To better exploit the curated high-quality spatial priors, CoMPaSS further introduces a Token ENcoding ORdering (TENOR) module to allow better exploitation of high-quality spatial priors, effectively compensating for the shortcoming of text encoders. Extensive experiments on four popular open-weight T2I diffusion models covering both UNet- and MMDiT-based architectures demonstrate the effectiveness of CoMPaSS by setting new state-of-the-arts with substantial relative gains across well-known benchmarks on spatial relationships generation, including VISOR (+98%), T2I-CompBench Spatial (+67%), and GenEval Position (+131%). Code will be available at https://github.com/blurgyy/CoMPaSS.
- Abstract(参考訳): テキストから画像への拡散モデルは、フォトリアリスティックな画像を生成するのに優れているが、テキストプロンプトに記述された正確な空間関係のレンダリングに苦慮することが多い。
この共通の失敗の根底にある2つの中核的な問題を特定します。
1)既存のデータセットにおける空間関連データのあいまいな性質
2)入力記述の空間的意味を正確に解釈する現在のテキストエンコーダが存在しないこと。
我々はこれらの問題を,任意のT2I拡散モデルの空間的理解を高める多目的学習フレームワークであるCoMPaSSを用いて解決する。
CoMPaSSは空間制約指向ペアリング(SCOP)データエンジンを用いて空間関連データのあいまいさを解決する。
CoMPaSSは、高品質な空間先行処理をよりうまく活用するために、高品質な空間先行処理をより活用し、テキストエンコーダの欠点を効果的に補償するToken ENcoding ORdering (TENOR)モジュールも導入している。
UNet-およびMMDiTアーキテクチャの両方をカバーする4つの一般的なオープンウェイトT2I拡散モデルに対する広範な実験は、VISOR (+98%)、T2I-CompBench Spatial (+67%)、GenEval Position (+131%)など、よく知られた空間関係生成に関するベンチマークにおいて、高い相対的ゲインを持つ新しい最先端技術を設定することで、CoMPaSSの有効性を実証している。
コードはhttps://github.com/blurgyy/CoMPaSSで入手できる。
関連論文リスト
- REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - IGAN: Inferent and Generative Adversarial Networks [0.0]
IGANは複雑な高次元データ分布における生成モデルと推論モデルの両方を学習する。
画像と潜伏空間の両方で敵の戦略を書き換えることで、従来のGANフレームワークを推論で拡張する。
論文 参考訳(メタデータ) (2021-09-27T21:48:35Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。