論文の概要: Rethink Sparse Signals for Pose-guided Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2506.20983v1
- Date: Thu, 26 Jun 2025 03:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.964829
- Title: Rethink Sparse Signals for Pose-guided Text-to-image Generation
- Title(参考訳): Pose-Guided Text-to-image Generationのためのスパース信号の再考
- Authors: Wenjie Xuan, Jing Zhang, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: 本稿では、ポーズ誘導画像生成のための頑健な制御性を有するスパース信号を備えた新しい空間位相制御ネット(SP-Ctrl)を提案する。
具体的には,OpenPoseを学習可能な空間表現に拡張し,キーポイント埋め込みを識別的かつ表現的とする。
動物・人間中心の画像生成タスクの実験により,本手法は最近の空間制御可能なT2I生成手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 79.91408421748889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works favored dense signals (e.g., depth, DensePose), as an alternative to sparse signals (e.g., OpenPose), to provide detailed spatial guidance for pose-guided text-to-image generation. However, dense representations raised new challenges, including editing difficulties and potential inconsistencies with textual prompts. This fact motivates us to revisit sparse signals for pose guidance, owing to their simplicity and shape-agnostic nature, which remains underexplored. This paper proposes a novel Spatial-Pose ControlNet(SP-Ctrl), equipping sparse signals with robust controllability for pose-guided image generation. Specifically, we extend OpenPose to a learnable spatial representation, making keypoint embeddings discriminative and expressive. Additionally, we introduce keypoint concept learning, which encourages keypoint tokens to attend to the spatial positions of each keypoint, thus improving pose alignment. Experiments on animal- and human-centric image generation tasks demonstrate that our method outperforms recent spatially controllable T2I generation approaches under sparse-pose guidance and even matches the performance of dense signal-based methods. Moreover, SP-Ctrl shows promising capabilities in diverse and cross-species generation through sparse signals. Codes will be available at https://github.com/DREAMXFAR/SP-Ctrl.
- Abstract(参考訳): 最近の研究は、疎信号(例えば、深度、DensePose)に代わる高密度信号(例えば、OpenPose)を好んでおり、ポーズ誘導による画像生成のための詳細な空間的ガイダンスを提供している。
しかし、密度の高い表現は、編集の困難やテキストのプロンプトとの潜在的な矛盾など、新たな課題を引き起こした。
この事実は、まだ探索されていない単純さと形状に依存しない性質のために、ポーズガイダンスのためにスパース信号を再考する動機となっている。
本稿では、ポーズ誘導画像生成のための頑健な制御性を有するスパース信号を備えた新しい空間位相制御ネット(SP-Ctrl)を提案する。
具体的には,OpenPoseを学習可能な空間表現に拡張し,キーポイント埋め込みを識別的かつ表現的とする。
さらに、キーポイントの概念学習を導入し、キーポイントトークンが各キーポイントの空間的位置に参加することを奨励し、ポーズアライメントを改善する。
動物・人間中心の画像生成タスクの実験により,本手法は疎目的誘導下での最近の空間制御可能なT2I生成手法よりも優れており,高密度信号ベース手法の性能に匹敵することを示した。
さらにSP-Ctrlは、スパース信号による多種多種多種多種多種間生成において有望な機能を示す。
コードはhttps://github.com/DREAMXFAR/SP-Ctrl.comで入手できる。
関連論文リスト
- ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Spatial Latent Representations in Generative Adversarial Networks for
Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-25T20:01:11Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - LatentKeypointGAN: Controlling Images via Latent Keypoints [23.670795505376336]
古典的なGAN目標に対して,2段階のGAN訓練を施したエンドツーエンドであるLatntKeypointGANを紹介する。
LatentKeypointGANは、生成されたイメージの再配列に使用できる解釈可能な潜在空間を提供する。
さらに、キーポイントとマッチング画像の明示的な生成により、教師なしキーポイント検出のための新しいGANベースの方法が可能になる。
論文 参考訳(メタデータ) (2021-03-29T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。