論文の概要: RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance
- arxiv url: http://arxiv.org/abs/2404.13984v1
- Date: Mon, 22 Apr 2024 08:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:45:41.412084
- Title: RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance
- Title(参考訳): RHanDS:デカップリングされた構造とスタイル誘導を備えた画像のための不正なハンドの精製
- Authors: Chengrui Wang, Pengfei Liu, Min Zhou, Ming Zeng, Xubin Li, Tiezheng Ge, Bo zheng,
- Abstract要約: 拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
- 参考スコア(独自算出の注目度): 41.213241942526935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion models can generate high-quality human images, their applications are limited by the instability in generating hands with correct structures. Some previous works mitigate the problem by considering hand structure yet struggle to maintain style consistency between refined malformed hands and other image regions. In this paper, we aim to solve the problem of inconsistency regarding hand structure and style. We propose a conditional diffusion-based framework RHanDS to refine the hand region with the help of decoupled structure and style guidance. Specifically, the structure guidance is the hand mesh reconstructed from the malformed hand, serving to correct the hand structure. The style guidance is a hand image, e.g., the malformed hand itself, and is employed to furnish the style reference for hand refining. In order to suppress the structure leakage when referencing hand style and effectively utilize hand data to improve the capability of the model, we build a multi-style hand dataset and introduce a twostage training strategy. In the first stage, we use paired hand images for training to generate hands with the same style as the reference. In the second stage, various hand images generated based on the human mesh are used for training to enable the model to gain control over the hand structure. We evaluate our method and counterparts on the test dataset of the proposed multi-style hand dataset. The experimental results show that RHanDS can effectively refine hands structure- and style- correctly compared with previous methods. The codes and datasets will be available soon.
- Abstract(参考訳): 拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
従来の作業では、手の構造を考慮しながら、洗練された不正な手と他の画像領域間のスタイルの整合性を維持するのに苦労していたため、この問題を軽減するものもあった。
本稿では,手の構造とスタイルの整合性に関する問題を解決することを目的とする。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
特に、構造ガイダンスは、不正な手から再構成された手メッシュであり、手構造を補正するのに役立ちます。
スタイルガイドは、手の画像、例えば、不正な手そのものであり、手作りのスタイル参照を提供するために用いられる。
ハンドスタイルの参照時の構造漏洩を抑えるため,モデルの性能向上のためにハンドデータを有効に活用するために,マルチスタイルハンドデータセットを構築し,2段階のトレーニング戦略を導入する。
第1段階では、ペアハンドイメージをトレーニングに使用して、参照と同じスタイルで手を生成する。
第2段階では、人間のメッシュに基づいて生成されたさまざまなハンドイメージをトレーニングに使用して、モデルが手の構造を制御できるようにする。
提案するマルチスタイルハンドデータセットのテストデータセット上で,本手法とそれに対応する手法について検討する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
コードとデータセットは近く提供される。
関連論文リスト
- HandCraft: Anatomically Correct Restoration of Malformed Hands in Diffusion Generated Images [20.81706200561224]
このような不正な手を取り戻すためのHandCraftを提案する。
これは、手のためのマスクと奥行き画像を自動的にコンディショニング信号として構築することで実現される。
我々のプラグアンドプレイハンド修復ソリューションは、既存の事前訓練拡散モデルと互換性がある。
論文 参考訳(メタデータ) (2024-11-07T00:14:39Z) - Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文 参考訳(メタデータ) (2024-03-15T23:31:41Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。