論文の概要: DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior
- arxiv url: http://arxiv.org/abs/2404.03642v1
- Date: Thu, 4 Apr 2024 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.603787
- Title: DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior
- Title(参考訳): DiffBody: Imagining with Generative Diffusion Prior
- Authors: Yiming Zhang, Zhe Wang, Xinjie Li, Yunchen Yuan, Chengsong Zhang, Xiao Sun, Zhihang Zhong, Jian Wang,
- Abstract要約: 人体修復は、人体に関する様々な応用において重要な役割を担っている。
近年の画像修復の進歩にもかかわらず、人体修復におけるその性能はいまだに中途半端である。
本稿では,ドメイン固有の知識を活用して性能を向上させる人体認識拡散モデルを構築することによって,新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 15.232348703888508
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human body restoration plays a vital role in various applications related to the human body. Despite recent advances in general image restoration using generative models, their performance in human body restoration remains mediocre, often resulting in foreground and background blending, over-smoothing surface textures, missing accessories, and distorted limbs. Addressing these challenges, we propose a novel approach by constructing a human body-aware diffusion model that leverages domain-specific knowledge to enhance performance. Specifically, we employ a pretrained body attention module to guide the diffusion model's focus on the foreground, addressing issues caused by blending between the subject and background. We also demonstrate the value of revisiting the language modality of the diffusion model in restoration tasks by seamlessly incorporating text prompt to improve the quality of surface texture and additional clothing and accessories details. Additionally, we introduce a diffusion sampler tailored for fine-grained human body parts, utilizing local semantic information to rectify limb distortions. Lastly, we collect a comprehensive dataset for benchmarking and advancing the field of human body restoration. Extensive experimental validation showcases the superiority of our approach, both quantitatively and qualitatively, over existing methods.
- Abstract(参考訳): 人体修復は、人体に関する様々な応用において重要な役割を担っている。
一般的な画像修復の進歩にもかかわらず、人体修復におけるパフォーマンスは概して穏やかであり、しばしば前景と背景のブレンディング、表面テクスチャの過度な平滑化、アクセサリーの欠如、変形した手足が生じる。
これらの課題に対処するため、我々は、ドメイン固有の知識を活用して性能を向上させる人体認識拡散モデルを構築することによって、新しいアプローチを提案する。
具体的には,事前学習したボディアテンションモジュールを用いて,拡散モデルの焦点を前景に誘導し,対象と背景の混在に起因する問題に対処する。
また,テキストプロンプトをシームレスに組み込んで表面テクスチャの質を向上させることで,修復作業における拡散モデルの言語モダリティを再考する価値を示す。
さらに,手足の歪みを補正するための局所的意味情報を利用して,人体部位の微粒化に適した拡散サンプリング装置を提案する。
最後に、人体修復の分野をベンチマークし、前進させるための包括的なデータセットを収集する。
大規模な実験的検証は,既存手法よりも定量的にも質的にも,我々のアプローチの優位性を示すものである。
関連論文リスト
- DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - DiffBody: Diffusion-based Pose and Shape Editing of Human Images [1.7188280334580193]
本稿では,アイデンティティを保存した大規模な編集を可能にするワンショットアプローチを提案する。
大きな編集を可能にするため、3Dボディモデルに適合し、入力画像を3Dモデルに投影し、身体のポーズと形状を変更する。
我々は、自己教師付き学習によるテキスト埋め込みを微調整することで、現実主義をさらに強化する。
論文 参考訳(メタデータ) (2024-01-05T13:36:19Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [51.75784816929666]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - Structure-Aware Flow Generation for Human Body Reshaping [15.365236395118982]
我々は,任意のポーズや服装で前例のない制御可能な性能を実現するために,エンドツーエンドのフロー生成アーキテクチャを開発した。
包括的評価のために, BR-5Kという, 初めての大規模ボディーリフォーミングデータセットを構築した。
提案手法は, 視覚性能, 制御性, 効率の面で, 既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-03-09T12:22:38Z) - StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision [54.920605385622274]
本研究では,立体視の幾何学的制約をPIFuの暗黙的関数表現と統合し,人間の3次元形状を復元するStereoPIFuを提案する。
従来の作品と比較すると, ステレオピフは衣服によるヒト再建のロバスト性, 完全性, 正確性が著しく向上した。
論文 参考訳(メタデータ) (2021-04-12T08:41:54Z) - Structure-aware Person Image Generation with Pose Decomposition and
Semantic Correlation [29.727033198797518]
高品質な人物画像生成のための構造認識フローベース手法を提案する。
人体を異なる意味部分に分解し、異なるネットワークを適用してこれらの部分のフロー場を別々に予測する。
提案手法は,ポーズの相違が大きい場合に高品質な結果を生成することができ,定性比較と定量的比較の両方において最先端の手法より優れる。
論文 参考訳(メタデータ) (2021-02-05T03:07:57Z) - Deep Physics-aware Inference of Cloth Deformation for Monocular Human
Performance Capture [84.73946704272113]
物理をトレーニングプロセスに統合することで、学習した布の変形が改善し、衣服を別の幾何学的要素としてモデル化できることを示す。
提案手法は現在の最先端手法よりも大幅に改善され,人間の衣服の変形面全体に対する現実的なモノクロキャプチャに向けた明確なステップとなる。
論文 参考訳(メタデータ) (2020-11-25T16:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。