論文の概要: ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis
- arxiv url: http://arxiv.org/abs/2504.13745v1
- Date: Fri, 18 Apr 2025 15:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:18:56.031108
- Title: ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis
- Title(参考訳): ESPLoRA:高精細合成のためのテキスト・画像拡散モデルにおける低ランク適応による空間精度の向上
- Authors: Andrea Rigo, Luca Stornaiuolo, Mauro Martino, Bruno Lepri, Nicu Sebe,
- Abstract要約: 拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。
生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
- 参考スコア(独自算出の注目度): 45.625062335269355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have revolutionized text-to-image (T2I) synthesis, producing high-quality, photorealistic images. However, they still struggle to properly render the spatial relationships described in text prompts. To address the lack of spatial information in T2I generations, existing methods typically use external network conditioning and predefined layouts, resulting in higher computational costs and reduced flexibility. Our approach builds upon a curated dataset of spatially explicit prompts, meticulously extracted and synthesized from LAION-400M to ensure precise alignment between textual descriptions and spatial layouts. Alongside this dataset, we present ESPLoRA, a flexible fine-tuning framework based on Low-Rank Adaptation, specifically designed to enhance spatial consistency in generative models without increasing generation time or compromising the quality of the outputs. In addition to ESPLoRA, we propose refined evaluation metrics grounded in geometric constraints, capturing 3D spatial relations such as \textit{in front of} or \textit{behind}. These metrics also expose spatial biases in T2I models which, even when not fully mitigated, can be strategically exploited by our TORE algorithm to further improve the spatial consistency of generated images. Our method outperforms the current state-of-the-art framework, CoMPaSS, by 13.33% on established spatial consistency benchmarks.
- Abstract(参考訳): 拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
T2I世代における空間情報の欠如に対処するため、既存の手法は通常、外部ネットワーク条件と事前定義されたレイアウトを使用し、計算コストが高く、柔軟性が低下する。
提案手法は,テキスト記述と空間レイアウトの正確な整合性を確保するために,LAION-400Mから精密に抽出・合成された空間的明示的なプロンプトを収集したデータセット上に構築する。
本データセットと並行して, 生成モデルにおける空間的整合性を高めること, 出力の質を向上させることを目的として, 低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
ESPLoRAに加えて, 幾何的制約を基礎とした精密な評価指標を提案し, 3次元空間関係(例えば, textit{in front of} や \textit{behind} など)を捉える。
これらの指標はまた、T2Iモデルにおいて空間バイアスを露呈し、完全に緩和されていなくても、TOREアルゴリズムによって戦略的に活用し、生成された画像の空間的一貫性をさらに向上させることができる。
提案手法は,既存の空間整合性ベンチマークにおいて,現在の最先端フレームワークであるCoMPaSSを13.33%向上させる。
関連論文リスト
- Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis [5.869767284889891]
拡散ベースのテキスト・ツー・イメージ(T2I)モデルは高品質な画像生成に優れています。
空間コヒーレントなT2I合成のための新しいトレーニング不要なアプローチSTORMを提案する。
論文 参考訳(メタデータ) (2025-03-28T06:12:25Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [13.992486106252716]
CoMPaSSは任意のT2I拡散モデルの空間的理解を高める汎用的なトレーニングフレームワークである。
CoMPaSSは空間制約指向ペアリング(SCOP)データエンジンを用いて空間関連データのあいまいさを解決する。
CoMPaSSは、キュレートされた高品質な空間先行をうまく活用するために、Token ENcoding ORdering (TENOR)モジュールを導入した。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。