論文の概要: Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2503.22168v1
- Date: Fri, 28 Mar 2025 06:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.581686
- Title: Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis
- Title(参考訳): 学習自由テキスト・画像合成のためのアテンションマップ再配置による空間移動最適化
- Authors: Woojung Han, Yeonkyung Lee, Chanyoung Kim, Kwanghyun Park, Seong Jae Hwang,
- Abstract要約: 拡散ベースのテキスト・ツー・イメージ(T2I)モデルは高品質な画像生成に優れています。
空間コヒーレントなT2I合成のための新しいトレーニング不要なアプローチSTORMを提案する。
- 参考スコア(独自算出の注目度): 5.869767284889891
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion-based text-to-image (T2I) models have recently excelled in high-quality image generation, particularly in a training-free manner, enabling cost-effective adaptability and generalization across diverse tasks. However, while the existing methods have been continuously focusing on several challenges, such as "missing objects" and "mismatched attributes," another critical issue of "mislocated objects" remains where generated spatial positions fail to align with text prompts. Surprisingly, ensuring such seemingly basic functionality remains challenging in popular T2I models due to the inherent difficulty of imposing explicit spatial guidance via text forms. To address this, we propose STORM (Spatial Transport Optimization by Repositioning Attention Map), a novel training-free approach for spatially coherent T2I synthesis. STORM employs Spatial Transport Optimization (STO), rooted in optimal transport theory, to dynamically adjust object attention maps for precise spatial adherence, supported by a Spatial Transport (ST) Cost function that enhances spatial understanding. Our analysis shows that integrating spatial awareness is most effective in the early denoising stages, while later phases refine details. Extensive experiments demonstrate that STORM surpasses existing methods, effectively mitigating mislocated objects while improving missing and mismatched attributes, setting a new benchmark for spatial alignment in T2I synthesis.
- Abstract(参考訳): 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、特に訓練のない方法で高品質な画像生成に優れており、様々なタスクにまたがるコスト効率の良い適応性と一般化を可能にしている。
しかし、既存の手法は「ミス・オブジェクト」や「ミス・マッチした属性」といったいくつかの課題に継続的に焦点を当ててきたが、「ミス・オブジェクト」のもう一つの重要な問題は、生成された空間的位置がテキストのプロンプトと一致しない点である。
驚くべきことに、一般的なT2Iモデルでは、テキスト形式による空間的指示を明示することが本質的に困難であるため、このような一見基本的な機能を保証することは依然として困難である。
そこで本研究では,空間的コヒーレントなT2I合成のための新しい学習自由アプローチSTORMを提案する。
STORMは、空間移動最適化(STO)を用いて、空間的理解を深める空間的輸送(ST)コスト関数によって支援された、正確な空間的密着性のためにオブジェクトの注意マップを動的に調整する。
分析の結果,空間認識の統合は早期認知の段階において最も効果的であり,後続の段階では詳細が明確になることがわかった。
大規模な実験では、STORMが既存のメソッドを超越し、ミスロケーションしたオブジェクトを効果的に軽減し、不一致や不一致の属性を改善し、T2I合成における空間アライメントのための新しいベンチマークを設定した。
関連論文リスト
- ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis [45.625062335269355]
拡散モデルはテキスト・ツー・イメージ(T2I)合成に革命をもたらし、高品質でフォトリアリスティックな画像を生成する。
しかし、テキストプロンプトで記述された空間的関係を適切に表現するのに依然として苦労している。
我々のアプローチは、LAION-400Mから精密に抽出され、合成された空間的明示的なプロンプトのキュレートされたデータセットの上に構築されている。
生成モデルにおける空間整合性を高めるために,低ランク適応に基づくフレキシブルな微調整フレームワークであるESPLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-18T15:21:37Z) - Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification [80.83325513157637]
Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T07:04:24Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [13.992486106252716]
CoMPaSSは任意のT2I拡散モデルの空間的理解を高める汎用的なトレーニングフレームワークである。
CoMPaSSは空間制約指向ペアリング(SCOP)データエンジンを用いて空間関連データのあいまいさを解決する。
CoMPaSSは、キュレートされた高品質な空間先行をうまく活用するために、Token ENcoding ORdering (TENOR)モジュールを導入した。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - HSLiNets: Hyperspectral Image and LiDAR Data Fusion Using Efficient Dual Non-Linear Feature Learning Networks [7.06787067270941]
新しい線形特徴空間におけるハイパースペクトルイメージング(HSI)とLiDARデータの統合は、HSIに固有の高次元性と冗長性に起因する課題に対する有望な解決策を提供する。
本研究では、双方向逆畳み込み畳み込みニューラルネットワーク(CNN)経路と特殊空間解析ブロックを併用した、二重線型融合空間フレームワークを提案する。
提案手法は,データ処理や分類精度を向上するだけでなく,トランスフォーマーなどの先進モデルに係わる計算負担を軽減する。
論文 参考訳(メタデータ) (2024-11-30T01:08:08Z) - StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing [40.50917266880829]
我々は,T2Vモデルにおける複数の被験者間のセマンティックアライメント,動作,テキストプロンプトを改善するための,プラグイン・アンド・プレイ方式であるtextbfStarVidを提案する。
StarVidはまず、テキストプロンプトに基づく2段階の運動軌跡計画に大規模言語モデル(LLM)の空間的推論機能を利用する。
論文 参考訳(メタデータ) (2024-09-23T17:56:03Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。