論文の概要: HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting
- arxiv url: http://arxiv.org/abs/2311.17957v2
- Date: Fri, 16 Aug 2024 05:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:55:33.007881
- Title: HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting
- Title(参考訳): HandRefiner:拡散型コンディショナルインペインティングによる画像中の奇形ハンドの精製
- Authors: Wenquan Lu, Yufei Xu, Jing Zhang, Chaoyue Wang, Dacheng Tao,
- Abstract要約: 拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
- 参考スコア(独自算出の注目度): 72.95232302438207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in generating realistic images but suffer from generating accurate human hands, such as incorrect finger counts or irregular shapes. This difficulty arises from the complex task of learning the physical structure and pose of hands from training images, which involves extensive deformations and occlusions. For correct hand generation, our paper introduces a lightweight post-processing solution called $\textbf{HandRefiner}$. HandRefiner employs a conditional inpainting approach to rectify malformed hands while leaving other parts of the image untouched. We leverage the hand mesh reconstruction model that consistently adheres to the correct number of fingers and hand shape, while also being capable of fitting the desired hand pose in the generated image. Given a generated failed image due to malformed hands, we utilize ControlNet modules to re-inject such correct hand information. Additionally, we uncover a phase transition phenomenon within ControlNet as we vary the control strength. It enables us to take advantage of more readily available synthetic data without suffering from the domain gap between realistic and synthetic hands. Experiments demonstrate that HandRefiner can significantly improve the generation quality quantitatively and qualitatively. The code is available at https://github.com/wenquanlu/HandRefiner .
- Abstract(参考訳): 拡散モデルは現実的な画像の生成において顕著な成功を収めてきたが、不正確な指数や不規則な形状などの正確な人間の手の生成に悩まされている。
この困難は、広範囲な変形と閉塞を伴う訓練画像から手の構造とポーズを学ぶという複雑な作業から生じる。
ハンドジェネレーションを正しくするために,本稿では,$\textbf{HandRefiner}$という軽量な後処理ソリューションを紹介した。
HandRefinerは、画像の他の部分を無傷で残しながら、不整形手を修正するための条件付き塗装アプローチを採用している。
画像に所望のポーズを合わせながら、指の数と手形を常に忠実に一致させるハンドメッシュ再構築モデルを活用する。
不正な手による画像生成が失敗した場合、制御ネットモジュールを使用して、そのような正しい手情報を再注入する。
さらに,制御強度が変化するにつれて,制御ネット内の位相遷移現象が明らかになった。
これにより、現実的な手と合成手のドメインギャップに悩まされることなく、より簡単に利用できる合成データを活用することができる。
実験により、HandRefinerは生成品質を定量的に質的に著しく改善できることが示された。
コードはhttps://github.com/wenquanlu/HandRefinerで入手できる。
関連論文リスト
- FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation [11.843140646170458]
単手画像と双手画像のための大規模ドメイン固有拡散モデルFoundHandを提案する。
2Dキーポイントとセグメンテーションマスクアノテーションを備えた大規模ハンドデータセットであるFoundHand-10Mを使用している。
本モデルでは,手の動きを再現したり,手の動きを伝達したり,新しいビューを合成したりといった,中核的な機能を示す。
論文 参考訳(メタデータ) (2024-12-03T18:58:19Z) - HandCraft: Anatomically Correct Restoration of Malformed Hands in Diffusion Generated Images [20.81706200561224]
このような不正な手を取り戻すためのHandCraftを提案する。
これは、手のためのマスクと奥行き画像を自動的にコンディショニング信号として構築することで実現される。
我々のプラグアンドプレイハンド修復ソリューションは、既存の事前訓練拡散モデルと互換性がある。
論文 参考訳(メタデータ) (2024-11-07T00:14:39Z) - RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文 参考訳(メタデータ) (2024-04-22T08:44:34Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - Im2Hands: Learning Attentive Implicit Representation of Interacting
Two-Hand Shapes [58.551154822792284]
Implicit Two Hands (Im2Hands) は、2つの相互作用する手の最初の暗黙の表現である。
Im2Handsは、両手と手と手と画像のコヒーレンシーの高い2つの手のきめ細かい幾何学を生成することができる。
両手再建におけるIm2Handsの有効性を, 関連手法と比較して実験的に実証した。
論文 参考訳(メタデータ) (2023-02-28T06:38:25Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。