論文の概要: GRPose: Learning Graph Relations for Human Image Generation with Pose Priors
- arxiv url: http://arxiv.org/abs/2408.16540v1
- Date: Thu, 29 Aug 2024 13:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:33:01.518043
- Title: GRPose: Learning Graph Relations for Human Image Generation with Pose Priors
- Title(参考訳): GRPose: Pose Priorsを用いた人体画像生成のためのグラフ関係学習
- Authors: Xiangchen Yin, Donglin Di, Lei Fan, Hao Li, Chen Wei, Xiaofei Gou, Yang Song, Xiao Sun, Xun Yang,
- Abstract要約: 人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を探索するフレームワークを提案する。
提案モデルでは,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
- 参考スコア(独自算出の注目度): 21.971188335727074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods using diffusion models have made significant progress in human image generation with various additional controls such as pose priors. However, existing approaches still struggle to generate high-quality images with consistent pose alignment, resulting in unsatisfactory outputs. In this paper, we propose a framework delving into the graph relations of pose priors to provide control information for human image generation. The main idea is to establish a graph topological structure between the pose priors and latent representation of diffusion models to capture the intrinsic associations between different pose parts. A Progressive Graph Integrator (PGI) is designed to learn the spatial relationships of the pose priors with the graph structure, adopting a hierarchical strategy within an Adapter to gradually propagate information across different pose parts. A pose perception loss is further introduced based on a pretrained pose estimation network to minimize the pose differences. Extensive qualitative and quantitative experiments conducted on the Human-Art and LAION-Human datasets demonstrate that our model achieves superior performance, with a 9.98% increase in pose average precision compared to the latest benchmark model. The code is released on *******.
- Abstract(参考訳): 拡散モデルを用いた最近の手法は、ポーズ前のような様々な付加的な制御により、人間の画像生成に大きな進歩をもたらした。
しかし、既存のアプローチは、一貫性のあるポーズアライメントを備えた高品質な画像を生成するのに依然として苦労している。
本稿では,人間の画像生成のための制御情報を提供するために,ポーズ先行のグラフ関係を探索するフレームワークを提案する。
主な考え方は、ポーズ先と拡散モデルの潜在表現の間のグラフ位相構造を確立して、異なるポーズ部分間の固有の関連を捉えることである。
プログレッシブグラフ積分器(PGI)は、ポーズ先行とグラフ構造との空間的関係を学習し、アダプタ内の階層的戦略を採用して、異なるポーズ部分間で情報を徐々に伝播させるように設計されている。
さらに、事前訓練されたポーズ推定ネットワークに基づいてポーズ知覚損失を導入し、ポーズ差を最小限にする。
また,Human-ArtデータセットとLAION-Humanデータセットを用いた大規模定性的・定量的実験により,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
コードは*******でリリースされる。
関連論文リスト
- FlexPose: Pose Distribution Adaptation with Limited Guidance [15.79919667308626]
本稿では,事前学習したポーズ生成器を,新しいポーズ分布に従って適応したポーズに調整する手法を提案する。
提案手法を定性的に,定量的に評価した。
論文 参考訳(メタデータ) (2024-12-18T03:18:11Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human
Motion Prediction [34.565986275769745]
本稿では,人間のポーズ予測のためのマルチスケール残差グラフ畳み込みネットワーク(MSR-GCN)を提案する。
提案手法は、Human3.6MデータセットとCMU Mocapデータセットの2つの標準ベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-08-16T15:26:23Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - 3D Human Pose Regression using Graph Convolutional Network [68.8204255655161]
本稿では,2次元のポーズから3次元のポーズ回帰を行うために,PoseGraphNetというグラフ畳み込みネットワークを提案する。
我々のモデルの性能は最先端に近いが、パラメータははるかに少ない。
論文 参考訳(メタデータ) (2021-05-21T14:41:31Z) - Progressive and Aligned Pose Attention Transfer for Person Image
Generation [59.87492938953545]
本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。
Pose-Attentional Transfer Block (PATB) と Aligned Pose-Attentional Transfer Bloc (APATB) の2種類のブロックを使用します。
Market-1501およびDeepFashionデータセットにおけるモデルの有効性を定量的および定性測定を用いて検証する。
論文 参考訳(メタデータ) (2021-03-22T07:24:57Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation
from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。
ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。
実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:02:48Z) - RePose: Learning Deep Kinematic Priors for Fast Human Pose Estimation [17.0630180888369]
本稿では,1つの画像から人間のポーズ推定を行うための,効率的で軽量なモデルを提案する。
本モデルは,様々な最先端手法のパラメータ数と計算コストのごく一部で競合する結果を得るように設計されている。
論文 参考訳(メタデータ) (2020-02-10T16:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。