論文の概要: KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
- arxiv url: http://arxiv.org/abs/2507.20083v1
- Date: Sat, 26 Jul 2025 23:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.874451
- Title: KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
- Title(参考訳): KB-DMGen:人間の画像生成のための知識に基づくグローバルガイダンスとダイナミックポーズマスキング
- Authors: Shibang Liu, Xuemei Xie, Guangming Shi,
- Abstract要約: ヒト画像生成のための知識ベースグローバルガイダンスと動的ポーズマスキング(KB-DMGen)を提案する。
KB-DMGenは、ポーズの精度を高め、画像の特徴情報を活用して全体的な画質を維持するように設計されている。
実験により,HumanArtデータセット上でのAPおよびCAPの観点から,新たな最先端結果が得られることを示す。
- 参考スコア(独自算出の注目度): 31.603231536312688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods using diffusion models have made significant progress in human image generation with various control signals such as pose priors. In portrait generation, both the accuracy of human pose and the overall visual quality are crucial for realistic synthesis. Most existing methods focus on controlling the accuracy of generated poses, but ignore the quality assurance of the entire image. In order to ensure the global image quality and pose accuracy, we propose Knowledge-Based Global Guidance and Dynamic pose Masking for human image Generation (KB-DMGen). The Knowledge Base (KB) is designed not only to enhance pose accuracy but also to leverage image feature information to maintain overall image quality. Dynamic Masking (DM) dynamically adjusts the importance of pose-related regions. Experiments demonstrate the effectiveness of our model, achieving new state-of-the-art results in terms of AP and CAP on the HumanArt dataset. The code will be made publicly available.
- Abstract(参考訳): 最近の拡散モデルを用いた手法は、ポーズ前のような様々な制御信号を用いた人間の画像生成において顕著な進歩を遂げている。
ポートレート生成では、人間のポーズの正確さと全体的な視覚的品質の両方が現実的な合成に不可欠である。
既存のほとんどの方法は、生成されたポーズの精度を制御することに重点を置いているが、画像全体の品質保証は無視している。
そこで我々は,ヒト画像生成のための知識ベースグローバルガイダンスと動的ポーズマスキングを提案する。
知識ベース(KB)は、ポーズの精度を高めるだけでなく、画像の特徴情報を活用して全体的な画質を維持するように設計されている。
動的マスキング(DM)はポーズ関連領域の重要性を動的に調整する。
実験により,HumanArtデータセット上でのAPおよびCAPの観点から,新たな最先端結果が得られることを示す。
コードは公開されます。
関連論文リスト
- PIGUIQA: A Physical Imaging Guided Perceptual Framework for Underwater Image Quality Assessment [59.9103803198087]
水中画像品質評価(UIQA)のための物理画像ガイド型知覚フレームワークを提案する。
水中放射移動理論を応用して、物理に基づく画像推定を統合して、これらの歪みの定量的な測定値を確立する。
提案モデルは,画像品質のスコアを正確に予測し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-20T03:31:45Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.91374799527015]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を考察する枠組みを提案する。
主な考え方は、ポーズ先行と拡散モデルの潜在表現の間のグラフ位相構造を確立することである。
事前訓練されたポーズ推定ネットワークに基づいてポーズ知覚損失を導入し、ポーズ差を最小限にする。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。
そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。
GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文 参考訳(メタデータ) (2024-04-04T07:26:26Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - PRISM: Progressive Restoration for Scene Graph-based Image Manipulation [47.77003316561398]
PRISMは、シーン内の操作された領域の精度と品質を改善するために、新しいマルチヘッド画像操作手法である。
本研究は,シーングラフに基づく画像操作の品質と精度を高めるためのアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-03T21:30:34Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - MetaAvatar: Learning Animatable Clothed Human Models from Few Depth
Images [60.56518548286836]
新規な入力ポーズから現実的な布の変形を生成するには、通常、水密メッシュや高密度フルボディスキャンが入力として必要とされる。
本研究では, 単眼深度画像のみを考慮し, 制御可能なニューラルSDFとして表現された, リアルな衣服付きアバターを迅速に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T17:30:12Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。