論文の概要: Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2503.22168v1
- Date: Fri, 28 Mar 2025 06:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:42.414082
- Title: Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis
- Title(参考訳): 学習自由テキスト・画像合成のためのアテンションマップ再配置による空間移動最適化
- Authors: Woojung Han, Yeonkyung Lee, Chanyoung Kim, Kwanghyun Park, Seong Jae Hwang,
- Abstract要約: 拡散ベースのテキスト・ツー・イメージ(T2I)モデルは高品質な画像生成に優れています。
空間コヒーレントなT2I合成のための新しいトレーニング不要なアプローチSTORMを提案する。
- 参考スコア(独自算出の注目度): 5.869767284889891
- License:
- Abstract: Diffusion-based text-to-image (T2I) models have recently excelled in high-quality image generation, particularly in a training-free manner, enabling cost-effective adaptability and generalization across diverse tasks. However, while the existing methods have been continuously focusing on several challenges, such as "missing objects" and "mismatched attributes," another critical issue of "mislocated objects" remains where generated spatial positions fail to align with text prompts. Surprisingly, ensuring such seemingly basic functionality remains challenging in popular T2I models due to the inherent difficulty of imposing explicit spatial guidance via text forms. To address this, we propose STORM (Spatial Transport Optimization by Repositioning Attention Map), a novel training-free approach for spatially coherent T2I synthesis. STORM employs Spatial Transport Optimization (STO), rooted in optimal transport theory, to dynamically adjust object attention maps for precise spatial adherence, supported by a Spatial Transport (ST) Cost function that enhances spatial understanding. Our analysis shows that integrating spatial awareness is most effective in the early denoising stages, while later phases refine details. Extensive experiments demonstrate that STORM surpasses existing methods, effectively mitigating mislocated objects while improving missing and mismatched attributes, setting a new benchmark for spatial alignment in T2I synthesis.
- Abstract(参考訳): 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、特に訓練のない方法で高品質な画像生成に優れており、様々なタスクにまたがるコスト効率の良い適応性と一般化を可能にしている。
しかし、既存の手法は「ミス・オブジェクト」や「ミス・マッチした属性」といったいくつかの課題に継続的に焦点を当ててきたが、「ミス・オブジェクト」のもう一つの重要な問題は、生成された空間的位置がテキストのプロンプトと一致しない点である。
驚くべきことに、一般的なT2Iモデルでは、テキスト形式による空間的指示を明示することが本質的に困難であるため、このような一見基本的な機能を保証することは依然として困難である。
そこで本研究では,空間的コヒーレントなT2I合成のための新しい学習自由アプローチSTORMを提案する。
STORMは、空間移動最適化(STO)を用いて、空間的理解を深める空間的輸送(ST)コスト関数によって支援された、正確な空間的密着性のためにオブジェクトの注意マップを動的に調整する。
分析の結果,空間認識の統合は早期認知の段階において最も効果的であり,後続の段階では詳細が明確になることがわかった。
大規模な実験では、STORMが既存のメソッドを超越し、ミスロケーションしたオブジェクトを効果的に軽減し、不一致や不一致の属性を改善し、T2I合成における空間アライメントのための新しいベンチマークを設定した。
関連論文リスト
- Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [13.992486106252716]
CoMPaSSは任意のT2I拡散モデルの空間的理解を高める汎用的なトレーニングフレームワークである。
CoMPaSSは空間制約指向ペアリング(SCOP)データエンジンを用いて空間関連データのあいまいさを解決する。
CoMPaSSは、キュレートされた高品質な空間先行をうまく活用するために、Token ENcoding ORdering (TENOR)モジュールを導入した。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - HSLiNets: Hyperspectral Image and LiDAR Data Fusion Using Efficient Dual Non-Linear Feature Learning Networks [7.06787067270941]
新しい線形特徴空間におけるハイパースペクトルイメージング(HSI)とLiDARデータの統合は、HSIに固有の高次元性と冗長性に起因する課題に対する有望な解決策を提供する。
本研究では、双方向逆畳み込み畳み込みニューラルネットワーク(CNN)経路と特殊空間解析ブロックを併用した、二重線型融合空間フレームワークを提案する。
提案手法は,データ処理や分類精度を向上するだけでなく,トランスフォーマーなどの先進モデルに係わる計算負担を軽減する。
論文 参考訳(メタデータ) (2024-11-30T01:08:08Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。