論文の概要: GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation
- arxiv url: http://arxiv.org/abs/2409.11689v1
- Date: Wed, 18 Sep 2024 04:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:10:09.488309
- Title: GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation
- Title(参考訳): GUNet: 安定・多様性ポッド生成のためのグラフ畳み込みネットワーク統一拡散モデル
- Authors: Shuowen Liang, Sisi Li, Qingyun Wang, Cen Zhang, Kaiquan Zhu, Tian Yang,
- Abstract要約: 本稿では,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。
拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。
PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 7.0646249774097525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose skeleton images are an important reference in pose-controllable image generation. In order to enrich the source of skeleton images, recent works have investigated the generation of pose skeletons based on natural language. These methods are based on GANs. However, it remains challenging to perform diverse, structurally correct and aesthetically pleasing human pose skeleton generation with various textual inputs. To address this problem, we propose a framework with GUNet as the main model, PoseDiffusion. It is the first generative framework based on a diffusion model and also contains a series of variants fine-tuned based on a stable diffusion model. PoseDiffusion demonstrates several desired properties that outperform existing methods. 1) Correct Skeletons. GUNet, a denoising model of PoseDiffusion, is designed to incorporate graphical convolutional neural networks. It is able to learn the spatial relationships of the human skeleton by introducing skeletal information during the training process. 2) Diversity. We decouple the key points of the skeleton and characterise them separately, and use cross-attention to introduce textual conditions. Experimental results show that PoseDiffusion outperforms existing SoTA algorithms in terms of stability and diversity of text-driven pose skeleton generation. Qualitative analyses further demonstrate its superiority for controllable generation in Stable Diffusion.
- Abstract(参考訳): ポース骨格画像はポーズ制御可能な画像生成において重要な参照である。
骨格画像のソースを充実させるために,近年の研究では,自然言語に基づくポーズスケルトンの生成について検討している。
これらの手法は GAN に基づいている。
しかし、多種多様なテキスト入力による人間のポーズスケルトン生成を多様で、構造的に正しく、美的に喜ばせることは依然として困難である。
この問題に対処するため,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。
拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。
PoseDiffusionは、既存のメソッドを上回るいくつかの望ましい特性を示している。
1)正しい骨格。
PoseDiffusionのデノベーションモデルであるGUNetは、グラフィカル畳み込みニューラルネットワークを組み込むように設計されている。
トレーニング中に骨格情報を導入することで、人間の骨格の空間的関係を学習することができる。
2)多様性。
我々は、骨格のキーポイントを分離し、それらを別々に特徴付け、テキスト条件の導入にクロスアテンションを使用する。
実験の結果,PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
定性的解析により、安定拡散における制御可能な生成の優位性がさらに証明された。
関連論文リスト
- From Text to Pose to Image: Improving Diffusion Model Control and Quality [0.5183511047901651]
提案手法では,新しいサンプリングアルゴリズムとともにテキスト・ツー・プレイス(T2P)生成モデルを導入し,ポーズの忠実度を高めるためにより多くのポーズ・キーポイントを組み込んだ新しいポーズ・アダプタを提案する。
これら2つの新しい最先端モデルによって、拡散モデルにおける高ポーズ制御のための生成的テキスト・ツー・プレイス・ツー・イメージ・フレームワークが、初めて実現された。
論文 参考訳(メタデータ) (2024-11-19T21:34:50Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.971188335727074]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を探索するフレームワークを提案する。
提案モデルでは,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Introducing Shape Prior Module in Diffusion Model for Medical Image
Segmentation [7.7545714516743045]
拡散確率モデル(DDPM)を利用したVerseDiff-UNetというエンドツーエンドフレームワークを提案する。
我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。
本手法はX線画像から得られた脊椎画像の1つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-09-12T03:05:00Z) - Pose Modulated Avatars from Video [22.395774558845336]
周波数領域において適応的かつ明示的な2分岐ニューラルネットワークを開発する。
最初のブランチは、体の部分間の相関を局所的にモデル化するグラフニューラルネットワークである。
第2のブランチは、これらの相関特徴を大域周波数のセットと組み合わせて、特徴符号化を変調する。
論文 参考訳(メタデータ) (2023-08-23T06:49:07Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。
基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文 参考訳(メタデータ) (2022-10-02T09:42:47Z) - DANBO: Disentangled Articulated Neural Body Representations via Graph
Neural Networks [12.132886846993108]
高解像度モデルは、写真リアリスティックなアバターを可能にするが、エンドユーザーには利用できないスタジオ設定を必要とするコストがかかる。
私たちのゴールは、高価なスタジオのセットアップや表面追跡に頼ることなく、生画像から直接アバターを作ることです。
本稿では,2つの帰納バイアスを誘導する3段階の手法を提案する。
論文 参考訳(メタデータ) (2022-05-03T17:56:46Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。