論文の概要: KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
- arxiv url: http://arxiv.org/abs/2507.20083v2
- Date: Mon, 15 Sep 2025 15:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.290169
- Title: KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
- Title(参考訳): KB-DMGen:人間の画像生成のための知識に基づくグローバルガイダンスとダイナミックポーズマスキング
- Authors: Shibang Liu, Xuemei Xie, Guangming Shi,
- Abstract要約: ヒト画像生成のための知識ベースグローバルガイダンスと動的ポーズマスキング(KB-DMGen)を提案する。
KB-DMGenは入力テキスト関連視覚特徴に基づいた粗いグローバルガイダンスを提供し、画像品質を維持しながらポーズ精度を向上させる。
KB-DMGenの有効性を実証し、HumanArtデータセット上でAPとCAPの観点で新しい最先端結果を達成する。
- 参考スコア(独自算出の注目度): 48.534087924931065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods using diffusion models have made significant progress in Human Image Generation (HIG) with various control signals such as pose priors. In HIG, both accurate human poses and coherent visual quality are crucial for image generation. However, most existing methods mainly focus on pose accuracy while neglecting overall image quality, often improving pose alignment at the cost of image quality. To address this, we propose Knowledge-Based Global Guidance and Dynamic pose Masking for human image Generation (KB-DMGen). The Knowledge Base (KB), implemented as a visual codebook, provides coarse, global guidance based on input text-related visual features, improving pose accuracy while maintaining image quality, while the Dynamic pose Mask (DM) offers fine-grained local control to enhance precise pose accuracy. By injecting KB and DM at different stages of the diffusion process, our framework enhances pose accuracy through both global and local control without compromising image quality. Experiments demonstrate the effectiveness of KB-DMGen, achieving new state-of-the-art results in terms of AP and CAP on the HumanArt dataset. The project page and code are available at https://lushbng.github.io/KBDMGen.
- Abstract(参考訳): 近年の拡散モデルを用いた手法は,ポーズ先行などの様々な制御信号を用いた人体画像生成(HIG)において顕著な進歩を遂げている。
HIGでは、正確な人間のポーズとコヒーレントな視覚的品質の両方が画像生成に不可欠である。
しかし、既存のほとんどの手法は、画像品質を無視しながらポーズの精度に重点を置いており、多くの場合、画像品質のコストでポーズのアライメントを改善する。
そこで我々は,ヒト画像生成のための知識ベースグローバルガイダンスと動的ポーズマスキング(KB-DMGen)を提案する。
ビジュアルコードブックとして実装されたKnowledge Base(KB)は、入力テキスト関連視覚特徴に基づく粗いグローバルガイダンスを提供し、画像品質を維持しながらポーズ精度を改善し、ダイナミックポーズマスク(DM)は精密ポーズ精度を高めるためのきめ細かい局所制御を提供する。
拡散過程の異なる段階でKBとDMを注入することにより、画像品質を損なうことなく、グローバルとローカルの両方の制御により、ポーズの精度を高めることができる。
KB-DMGenの有効性を実証し、HumanArtデータセット上でAPとCAPの観点で新しい最先端結果を達成する。
プロジェクトページとコードはhttps://lushbng.github.io/KBDMGenで公開されている。
関連論文リスト
- HandEval: Taking the First Step Towards Hand Quality Evaluation in Generated Images [23.918454005000328]
我々は,手固有の品質評価モデルであるHandEvalを開発した。
HandEvalは、既存のSOTAメソッドよりも人間の判断と整合している。
HandEvalを画像生成とAIGC検出パイプラインに統合する。
論文 参考訳(メタデータ) (2025-10-10T03:39:10Z) - Perceptual Classifiers: Detecting Generative Images using Perceptual Features [28.667331253804214]
画像品質評価(IQA)モデルは、ストレージの削減、送信コストの最小化、数百万人の視聴者のクオリティ・オブ・エクスペリエンス(QoE)を改善するために、実用的な画像およびビデオ処理パイプラインに採用されている。
近年の世代モデルの発展により、インターネット上の「GenAI」コンテンツが大幅に流入している。
ここでは,バンドパス統計空間内の実画像の多様体を効果的に捉え,実画像とAI生成画像の区別を行う既存のIQAモデルの性能を利用する。
論文 参考訳(メタデータ) (2025-07-23T06:18:09Z) - FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models [21.03185704537153]
本稿では,グローバルおよびローカルな生成品質を公平に向上するために,多目的微調整手法を提案する。
最小電位遅延(MPD)基準に基づく最適パラメータ更新戦略を導出する。
提案手法は,全体の品質を維持しながら,挑戦的な局所的な細部の生成において,大幅な改善を実現することができる。
論文 参考訳(メタデータ) (2025-07-03T15:27:45Z) - PIGUIQA: A Physical Imaging Guided Perceptual Framework for Underwater Image Quality Assessment [59.9103803198087]
水中画像品質評価(UIQA)のための物理画像ガイド型知覚フレームワークを提案する。
水中放射移動理論を応用して、物理に基づく画像推定を統合して、これらの歪みの定量的な測定値を確立する。
提案モデルは,画像品質のスコアを正確に予測し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-20T03:31:45Z) - Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss [12.565642618427844]
拡散モデルは、特定のポーズで人間の生成を含むイメージを合成することができる。
現在のモデルは、詳細なポーズ生成のための条件制御を適切に表現する上で課題に直面している。
本研究では,手指領域の改善に焦点をあてる拡散モデルトレーニングを実現するRACL(Regional-Aware Cycle Loss)を提案する。
論文 参考訳(メタデータ) (2024-09-13T19:09:19Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.91374799527015]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を考察する枠組みを提案する。
主な考え方は、ポーズ先行と拡散モデルの潜在表現の間のグラフ位相構造を確立することである。
事前訓練されたポーズ推定ネットワークに基づいてポーズ知覚損失を導入し、ポーズ差を最小限にする。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。
そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。
GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文 参考訳(メタデータ) (2024-04-04T07:26:26Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - PRISM: Progressive Restoration for Scene Graph-based Image Manipulation [47.77003316561398]
PRISMは、シーン内の操作された領域の精度と品質を改善するために、新しいマルチヘッド画像操作手法である。
本研究は,シーングラフに基づく画像操作の品質と精度を高めるためのアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-03T21:30:34Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - Generalized Visual Quality Assessment of GAN-Generated Face Images [79.47386781978531]
GAN生成顔画像(GFI)の汎用品質評価に向けた主観的・客観的品質の検討
我々は、利用可能なGANアルゴリズムと見えないGANアルゴリズムの両方から、GFIの正確な品質予測を可能にする品質評価モデルを開発する。
論文 参考訳(メタデータ) (2022-01-28T07:54:49Z) - MetaAvatar: Learning Animatable Clothed Human Models from Few Depth
Images [60.56518548286836]
新規な入力ポーズから現実的な布の変形を生成するには、通常、水密メッシュや高密度フルボディスキャンが入力として必要とされる。
本研究では, 単眼深度画像のみを考慮し, 制御可能なニューラルSDFとして表現された, リアルな衣服付きアバターを迅速に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T17:30:12Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。