論文の概要: SpatialLock: Precise Spatial Control in Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2511.04112v1
- Date: Thu, 06 Nov 2025 06:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.334883
- Title: SpatialLock: Precise Spatial Control in Text-to-Image Synthesis
- Title(参考訳): 空間ロック:テキスト・画像合成における精密空間制御
- Authors: Biao Liu, Yuanzhi Liang,
- Abstract要約: 本研究では,認識信号と接地情報を利用して空間的位置の生成を協調的に制御する新しい枠組みを提案する。
実験の結果、SpatialLockは精度の高いオブジェクト位置決めのための新しい最先端技術を設定し、複数のデータセットで0.9以上のIOUスコアを達成している。
- 参考スコア(独自算出の注目度): 12.228506553590776
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-Image (T2I) synthesis has made significant advancements in recent years, driving applications such as generating datasets automatically. However, precise control over object localization in generated images remains a challenge. Existing methods fail to fully utilize positional information, leading to an inadequate understanding of object spatial layouts. To address this issue, we propose SpatialLock, a novel framework that leverages perception signals and grounding information to jointly control the generation of spatial locations. SpatialLock incorporates two components: Position-Engaged Injection (PoI) and Position-Guided Learning (PoG). PoI directly integrates spatial information through an attention layer, encouraging the model to learn the grounding information effectively. PoG employs perception-based supervision to further refine object localization. Together, these components enable the model to generate objects with precise spatial arrangements and improve the visual quality of the generated images. Experiments show that SpatialLock sets a new state-of-the-art for precise object positioning, achieving IOU scores above 0.9 across multiple datasets.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)合成は近年大きく進歩し、データセットの自動生成などのアプリケーションを駆動している。
しかし、生成画像中のオブジェクトの局所化を正確に制御することは依然として困難である。
既存の手法では位置情報を完全に活用できないため、オブジェクトの空間配置の理解が不十分である。
この問題に対処するために,認識信号と接地情報を利用して空間的位置の生成を協調制御する新しいフレームワークであるSpatialLockを提案する。
SpaceLockには2つのコンポーネントがある: position-Engaged Injection (PoI) と position-Guided Learning (PoG)。
PoIは、アテンション層を介して空間情報を直接統合し、グラウンド情報を効果的に学習するようモデルに促す。
PoGは知覚に基づく監視を使用して、オブジェクトのローカライゼーションをさらに洗練する。
これらのコンポーネントを組み合わせることで、モデルが正確な空間配置でオブジェクトを生成し、生成した画像の視覚的品質を向上させることができる。
実験の結果、SpatialLockは精度の高いオブジェクト位置決めのための新しい最先端技術を設定し、複数のデータセットで0.9以上のIOUスコアを達成している。
関連論文リスト
- Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - BOOTPLACE: Bootstrapped Object Placement with Detection Transformers [23.300369070771836]
本稿では,オブジェクト配置を位置検出問題として定式化する新しいパラダイムであるBOOTPLACEを紹介する。
確立されたベンチマークの実験結果は、BOOTPLACEのオブジェクト再配置における優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-27T21:21:20Z) - GLASS: Guided Latent Slot Diffusion for Object-Centric Learning [13.721373817758307]
本稿では,生成画像空間で学習するスロットアテンションモデルであるGLASSについて紹介する。
我々の実験は、GLASSが最先端のスロットアテンション手法を、(ゼロショット)オブジェクト発見のようなタスクの幅広いマージンで超越していることを示している。
GLASSは、複雑な現実的なシーンの合成生成にスロットアテンションを初めて適用することを可能にする。
論文 参考訳(メタデータ) (2024-07-25T10:38:32Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。