論文の概要: Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2406.02485v2
- Date: Tue, 05 Nov 2024 09:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:56:31.764300
- Title: Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation
- Title(参考訳): スタブルパス:Pose-Guided Text-to- Image 生成のためのレバレッジトランス
- Authors: Jiajun Wang, Morteza Ghahremani, Yitong Li, Björn Ommer, Christian Wachinger,
- Abstract要約: Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
- 参考スコア(独自算出の注目度): 32.190055780969466
- License:
- Abstract: Controllable text-to-image (T2I) diffusion models have shown impressive performance in generating high-quality visual content through the incorporation of various conditions. Current methods, however, exhibit limited performance when guided by skeleton human poses, especially in complex pose conditions such as side or rear perspectives of human figures. To address this issue, we present Stable-Pose, a novel adapter model that introduces a coarse-to-fine attention masking strategy into a vision Transformer (ViT) to gain accurate pose guidance for T2I models. Stable-Pose is designed to adeptly handle pose conditions within pre-trained Stable Diffusion, providing a refined and efficient way of aligning pose representation during image synthesis. We leverage the query-key self-attention mechanism of ViTs to explore the interconnections among different anatomical parts in human pose skeletons. Masked pose images are used to smoothly refine the attention maps based on target pose-related features in a hierarchical manner, transitioning from coarse to fine levels. Additionally, our loss function is formulated to allocate increased emphasis to the pose region, thereby augmenting the model's precision in capturing intricate pose details. We assessed the performance of Stable-Pose across five public datasets under a wide range of indoor and outdoor human pose scenarios. Stable-Pose achieved an AP score of 57.1 in the LAION-Human dataset, marking around 13% improvement over the established technique ControlNet. The project link and code is available at https://github.com/ai-med/StablePose.
- Abstract(参考訳): 制御可能なテキスト・ツー・イメージ(T2I)拡散モデルでは,様々な条件が組み込まれ,高品質な視覚コンテンツを生成できる。
しかしながら、現在の方法では、人体の側面や後部の視点のような複雑なポーズ条件において、骨格的な人間のポーズによってガイドされるときの限られたパフォーマンスを示す。
この問題に対処するために,視覚変換器(ViT)に粗い注目マスキング戦略を導入し,T2Iモデルの正確なポーズガイダンスを得る新しいアダプタモデルであるStable-Poseを提案する。
Stable-Poseは、事前訓練された安定拡散内のポーズ条件を順応的に処理するように設計されており、画像合成中にポーズ表現を整列する洗練された効率的な方法を提供する。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
マスクされたポーズ画像は、ターゲットのポーズ関連特徴に基づいた注意マップを階層的な方法で円滑に洗練し、粗いものから細かいものへと遷移させる。
さらに、損失関数を定式化し、ポーズ領域に重きを置くことで、複雑なポーズの詳細を捉える際のモデルの精度を向上する。
屋内および屋外のさまざまな人間のポーズシナリオにおいて,5つの公開データセット間での安定度の評価を行った。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
プロジェクトのリンクとコードはhttps://github.com/ai-med/StablePose.comで公開されている。
関連論文リスト
- VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation [10.374944534302234]
2次元ポーズからのリフト」法が3Dヒューマンポーズ推定の主流となっている(3DHPE)
画像中のリッチな意味とテクスチャ情報は、より正確な「リフト」手順に寄与する。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
論文 参考訳(メタデータ) (2023-12-25T07:50:58Z) - RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis [14.50214193838818]
ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。
条件付きガイダンスとしてポーズアラインメントのテクスチャ特徴を提供するために,繰り返しポーズアライメントを提案する。
これは、フォトリアリズムと非歪なテクスチャの詳細をもたらす、もっともらしいポーズ伝達軌跡の学習に役立ちます。
論文 参考訳(メタデータ) (2023-10-24T15:16:19Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。
入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。
次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文 参考訳(メタデータ) (2022-05-09T07:34:06Z) - FixMyPose: Pose Correctional Captioning and Retrieval [67.20888060019028]
本稿では,自動ポーズ修正システムに対応する新しいキャプションデータセットfixmyposeを提案する。
我々は「現在の」ポーズを「ターゲット」ポーズのように見えるように修正する記述を収集する。
MLバイアスを避けるため、さまざまな階層を持つキャラクタ間のバランスを維持します。
論文 参考訳(メタデータ) (2021-04-04T21:45:44Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。