論文の概要: KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
- arxiv url: http://arxiv.org/abs/2507.20083v2
- Date: Mon, 15 Sep 2025 15:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.290169
- Title: KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
- Title(参考訳): KB-DMGen:人間の画像生成のための知識に基づくグローバルガイダンスとダイナミックポーズマスキング
- Authors: Shibang Liu, Xuemei Xie, Guangming Shi,
- Abstract要約: ヒト画像生成のための知識ベースグローバルガイダンスと動的ポーズマスキング(KB-DMGen)を提案する。
KB-DMGenは入力テキスト関連視覚特徴に基づいた粗いグローバルガイダンスを提供し、画像品質を維持しながらポーズ精度を向上させる。
KB-DMGenの有効性を実証し、HumanArtデータセット上でAPとCAPの観点で新しい最先端結果を達成する。
- 参考スコア(独自算出の注目度): 48.534087924931065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods using diffusion models have made significant progress in Human Image Generation (HIG) with various control signals such as pose priors. In HIG, both accurate human poses and coherent visual quality are crucial for image generation. However, most existing methods mainly focus on pose accuracy while neglecting overall image quality, often improving pose alignment at the cost of image quality. To address this, we propose Knowledge-Based Global Guidance and Dynamic pose Masking for human image Generation (KB-DMGen). The Knowledge Base (KB), implemented as a visual codebook, provides coarse, global guidance based on input text-related visual features, improving pose accuracy while maintaining image quality, while the Dynamic pose Mask (DM) offers fine-grained local control to enhance precise pose accuracy. By injecting KB and DM at different stages of the diffusion process, our framework enhances pose accuracy through both global and local control without compromising image quality. Experiments demonstrate the effectiveness of KB-DMGen, achieving new state-of-the-art results in terms of AP and CAP on the HumanArt dataset. The project page and code are available at https://lushbng.github.io/KBDMGen.
- Abstract(参考訳): 近年の拡散モデルを用いた手法は,ポーズ先行などの様々な制御信号を用いた人体画像生成(HIG)において顕著な進歩を遂げている。
HIGでは、正確な人間のポーズとコヒーレントな視覚的品質の両方が画像生成に不可欠である。
しかし、既存のほとんどの手法は、画像品質を無視しながらポーズの精度に重点を置いており、多くの場合、画像品質のコストでポーズのアライメントを改善する。
そこで我々は,ヒト画像生成のための知識ベースグローバルガイダンスと動的ポーズマスキング(KB-DMGen)を提案する。
ビジュアルコードブックとして実装されたKnowledge Base(KB)は、入力テキスト関連視覚特徴に基づく粗いグローバルガイダンスを提供し、画像品質を維持しながらポーズ精度を改善し、ダイナミックポーズマスク(DM)は精密ポーズ精度を高めるためのきめ細かい局所制御を提供する。
拡散過程の異なる段階でKBとDMを注入することにより、画像品質を損なうことなく、グローバルとローカルの両方の制御により、ポーズの精度を高めることができる。
KB-DMGenの有効性を実証し、HumanArtデータセット上でAPとCAPの観点で新しい最先端結果を達成する。
プロジェクトページとコードはhttps://lushbng.github.io/KBDMGenで公開されている。
関連論文リスト
- PIGUIQA: A Physical Imaging Guided Perceptual Framework for Underwater Image Quality Assessment [59.9103803198087]
水中画像品質評価(UIQA)のための物理画像ガイド型知覚フレームワークを提案する。
水中放射移動理論を応用して、物理に基づく画像推定を統合して、これらの歪みの定量的な測定値を確立する。
提案モデルは,画像品質のスコアを正確に予測し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-20T03:31:45Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.91374799527015]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を考察する枠組みを提案する。
主な考え方は、ポーズ先行と拡散モデルの潜在表現の間のグラフ位相構造を確立することである。
事前訓練されたポーズ推定ネットワークに基づいてポーズ知覚損失を導入し、ポーズ差を最小限にする。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。
そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。
GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文 参考訳(メタデータ) (2024-04-04T07:26:26Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - PRISM: Progressive Restoration for Scene Graph-based Image Manipulation [47.77003316561398]
PRISMは、シーン内の操作された領域の精度と品質を改善するために、新しいマルチヘッド画像操作手法である。
本研究は,シーングラフに基づく画像操作の品質と精度を高めるためのアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-03T21:30:34Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - MetaAvatar: Learning Animatable Clothed Human Models from Few Depth
Images [60.56518548286836]
新規な入力ポーズから現実的な布の変形を生成するには、通常、水密メッシュや高密度フルボディスキャンが入力として必要とされる。
本研究では, 単眼深度画像のみを考慮し, 制御可能なニューラルSDFとして表現された, リアルな衣服付きアバターを迅速に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T17:30:12Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。