論文の概要: PMMD: A pose-guided multi-view multi-modal diffusion for person generation
- arxiv url: http://arxiv.org/abs/2512.15069v1
- Date: Wed, 17 Dec 2025 04:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.8541
- Title: PMMD: A pose-guided multi-view multi-modal diffusion for person generation
- Title(参考訳): PMMD:人物生成のためのポーズ誘導マルチビューマルチモーダル拡散
- Authors: Ziyu Shang, Haoran Liu, Rongchao Zhang, Zhiqian Wei, Tongtong Feng,
- Abstract要約: Pose-Guided Multi-view Multi-modal Diffusion (PMMD) は、多視点参照、ポーズマップ、テキストプロンプトで条件付けられた人物画像を合成する拡散フレームワークである。
マルチモーダルエンコーダは、視覚的なビュー、ポーズ、意味的な記述を共同でモデル化する。
DeepFashion MultiModalデータセットの実験では、PMMDは一貫性、詳細な保存、制御性において代表的ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 17.527693672675003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating consistent human images with controllable pose and appearance is essential for applications in virtual try on, image editing, and digital human creation. Current methods often suffer from occlusions, garment style drift, and pose misalignment. We propose Pose-guided Multi-view Multimodal Diffusion (PMMD), a diffusion framework that synthesizes photorealistic person images conditioned on multi-view references, pose maps, and text prompts. A multimodal encoder jointly models visual views, pose features, and semantic descriptions, which reduces cross modal discrepancy and improves identity fidelity. We further design a ResCVA module to enhance local detail while preserving global structure, and a cross modal fusion module that integrates image semantics with text throughout the denoising pipeline. Experiments on the DeepFashion MultiModal dataset show that PMMD outperforms representative baselines in consistency, detail preservation, and controllability. Project page and code are available at https://github.com/ZANMANGLOOPYE/PMMD.
- Abstract(参考訳): 仮想試行、画像編集、デジタル人間の創造において、一貫した人間のイメージを制御可能なポーズと外観で生成することは不可欠である。
現行の手法では、隠蔽や衣服スタイルの漂流に悩まされ、違和感を呈することが多い。
我々は,多視点参照,ポーズマップ,テキストプロンプトに条件付きフォトリアリスティックな人物像を合成する拡散フレームワークであるPMMD(Pose-guided Multi-view Multi-modal Diffusion)を提案する。
マルチモーダルエンコーダは、視覚的なビュー、ポーズ、セマンティックな記述を共同でモデル化する。
さらに、グローバルな構造を維持しながら局所的な詳細性を高めるためにResCVAモジュールを設計し、デノナイジングパイプライン全体を通して画像セマンティクスとテキストを統合するクロスモーダル融合モジュールを設計する。
DeepFashion MultiModalデータセットの実験では、PMMDは一貫性、詳細な保存、制御性において代表的ベースラインを上回っている。
プロジェクトページとコードはhttps://github.com/ZANMANGLOOPYE/PMMDで公開されている。
関連論文リスト
- Unsupervised Multi-View Visual Anomaly Detection via Progressive Homography-Guided Alignment [14.782512101141016]
多視点画像からの教師なし視覚異常検出は重要な課題である。
ViewSense-AD (VSAD) は、ビュー間の幾何学的一貫性を明示的にモデル化することで、視点不変表現を学習する。
拡散モデルから得られた多レベル特徴を、通常のプロトタイプの学習メモリバンクと比較することにより異常検出を行う。
論文 参考訳(メタデータ) (2025-11-24T05:01:16Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文 参考訳(メタデータ) (2025-07-30T19:43:47Z) - Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。
これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。
本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文 参考訳(メタデータ) (2025-03-19T20:50:10Z) - DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images [9.768951663960257]
本稿では,画像からリアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。
まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。
第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を分離し、ノイズ予測ブロックの様々な層に供給する。
論文 参考訳(メタデータ) (2024-12-25T06:36:24Z) - Learning Collaborative Knowledge with Multimodal Representation for Polyp Re-Identification [14.63589190319602]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
本稿では,ポリプ再同定のためのDMCLという新しい多モーダル協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T04:05:19Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。