論文の概要: DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior
- arxiv url: http://arxiv.org/abs/2404.03642v1
- Date: Thu, 4 Apr 2024 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.603787
- Title: DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior
- Title(参考訳): DiffBody: Imagining with Generative Diffusion Prior
- Authors: Yiming Zhang, Zhe Wang, Xinjie Li, Yunchen Yuan, Chengsong Zhang, Xiao Sun, Zhihang Zhong, Jian Wang,
- Abstract要約: 人体修復は、人体に関する様々な応用において重要な役割を担っている。
近年の画像修復の進歩にもかかわらず、人体修復におけるその性能はいまだに中途半端である。
本稿では,ドメイン固有の知識を活用して性能を向上させる人体認識拡散モデルを構築することによって,新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 15.232348703888508
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human body restoration plays a vital role in various applications related to the human body. Despite recent advances in general image restoration using generative models, their performance in human body restoration remains mediocre, often resulting in foreground and background blending, over-smoothing surface textures, missing accessories, and distorted limbs. Addressing these challenges, we propose a novel approach by constructing a human body-aware diffusion model that leverages domain-specific knowledge to enhance performance. Specifically, we employ a pretrained body attention module to guide the diffusion model's focus on the foreground, addressing issues caused by blending between the subject and background. We also demonstrate the value of revisiting the language modality of the diffusion model in restoration tasks by seamlessly incorporating text prompt to improve the quality of surface texture and additional clothing and accessories details. Additionally, we introduce a diffusion sampler tailored for fine-grained human body parts, utilizing local semantic information to rectify limb distortions. Lastly, we collect a comprehensive dataset for benchmarking and advancing the field of human body restoration. Extensive experimental validation showcases the superiority of our approach, both quantitatively and qualitatively, over existing methods.
- Abstract(参考訳): 人体修復は、人体に関する様々な応用において重要な役割を担っている。
一般的な画像修復の進歩にもかかわらず、人体修復におけるパフォーマンスは概して穏やかであり、しばしば前景と背景のブレンディング、表面テクスチャの過度な平滑化、アクセサリーの欠如、変形した手足が生じる。
これらの課題に対処するため、我々は、ドメイン固有の知識を活用して性能を向上させる人体認識拡散モデルを構築することによって、新しいアプローチを提案する。
具体的には,事前学習したボディアテンションモジュールを用いて,拡散モデルの焦点を前景に誘導し,対象と背景の混在に起因する問題に対処する。
また,テキストプロンプトをシームレスに組み込んで表面テクスチャの質を向上させることで,修復作業における拡散モデルの言語モダリティを再考する価値を示す。
さらに,手足の歪みを補正するための局所的意味情報を利用して,人体部位の微粒化に適した拡散サンプリング装置を提案する。
最後に、人体修復の分野をベンチマークし、前進させるための包括的なデータセットを収集する。
大規模な実験的検証は,既存手法よりも定量的にも質的にも,我々のアプローチの優位性を示すものである。
関連論文リスト
- Detecting Human Artifacts from Text-to-Image Models [16.261759535724778]
人体を含む画像を含む画像を含む画像を含むデータセット。
画像には、人間の身体の歪んだ部分や欠けた部分を含む、未生成の人間の身体の画像が含まれている。
論文 参考訳(メタデータ) (2024-11-21T05:02:13Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Divide and Fuse: Body Part Mesh Recovery from Partially Visible Human Images [57.479339658504685]
ディバイドとフューズ」戦略は、人体部分を融合する前に独立して再構築する。
Human Part Parametric Models (HPPM) は、いくつかの形状とグローバルな位置パラメータからメッシュを独立に再構築する。
特別に設計された融合モジュールは、一部しか見えない場合でも、再建された部品をシームレスに統合する。
論文 参考訳(メタデータ) (2024-07-12T21:29:11Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - DiffBody: Diffusion-based Pose and Shape Editing of Human Images [1.7188280334580193]
本稿では,アイデンティティを保存した大規模な編集を可能にするワンショットアプローチを提案する。
大きな編集を可能にするため、3Dボディモデルに適合し、入力画像を3Dモデルに投影し、身体のポーズと形状を変更する。
我々は、自己教師付き学習によるテキスト埋め込みを微調整することで、現実主義をさらに強化する。
論文 参考訳(メタデータ) (2024-01-05T13:36:19Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [51.75784816929666]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision [54.920605385622274]
本研究では,立体視の幾何学的制約をPIFuの暗黙的関数表現と統合し,人間の3次元形状を復元するStereoPIFuを提案する。
従来の作品と比較すると, ステレオピフは衣服によるヒト再建のロバスト性, 完全性, 正確性が著しく向上した。
論文 参考訳(メタデータ) (2021-04-12T08:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。