論文の概要: VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding
- arxiv url: http://arxiv.org/abs/2408.12340v2
- Date: Tue, 27 Aug 2024 02:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 18:11:54.262069
- Title: VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding
- Title(参考訳): VTON-HandFit:手書きプリミティブでガイドされた任意ハンドのバーチャルトライオン
- Authors: Yujie Liang, Xiaobin Hu, Boyuan Jiang, Donghao Luo, Kai WU, Wenhui Han, Taisong Jin, Chengjie Wang,
- Abstract要約: VTON-HandFitは手閉塞症例の外観と構造を再構成する。
手形外乱埋め込みモジュールは、手の構造パラメトリックと視覚的外観の特徴に手先をゆがめる。
モデル画像のハンドテンプレートから、構造エッジの知識をよりよく学習するために、手持ちの制約損失をカスタマイズする。
- 参考スコア(独自算出の注目度): 32.862533877948444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion-based image virtual try-on has made considerable progress, emerging approaches still struggle to effectively address the issue of hand occlusion (i.e., clothing regions occluded by the hand part), leading to a notable degradation of the try-on performance. To tackle this issue widely existing in real-world scenarios, we propose VTON-HandFit, leveraging the power of hand priors to reconstruct the appearance and structure for hand occlusion cases. Firstly, we tailor a Handpose Aggregation Net using the ControlNet-based structure explicitly and adaptively encoding the global hand and pose priors. Besides, to fully exploit the hand-related structure and appearance information, we propose Hand-feature Disentanglement Embedding module to disentangle the hand priors into the hand structure-parametric and visual-appearance features, and customize a masked cross attention for further decoupled feature embedding. Lastly, we customize a hand-canny constraint loss to better learn the structure edge knowledge from the hand template of model image. VTON-HandFit outperforms the baselines in qualitative and quantitative evaluations on the public dataset and our self-collected hand-occlusion Handfit-3K dataset particularly for the arbitrary hand pose occlusion cases in real-world scenarios. The Code and dataset will be available at \url{https://github.com/VTON-HandFit/VTON-HandFit}.
- Abstract(参考訳): 拡散型画像仮想トライオンは大きな進歩を遂げているが、新しいアプローチは手排せつ問題(例えば、手の部分によって排除された衣服領域)を効果的に解決することに苦慮しており、試着性能の顕著な低下につながっている。
実世界のシナリオに広く存在するこの問題に対処するために,手前の力を利用して手閉塞症例の外観と構造を再構築するVTON-HandFitを提案する。
まず,コントロールネットをベースとした構造を用いてハンドプレイス・アグリゲーション・ネットを設計し,グローバルハンドを明示的に適応的に符号化し,事前のポーズをとる。
また,手の構造と外観情報をフル活用するために,手前を手前と手前をパラメトリック・視覚的特徴に切り離し,マスク付きクロスアテンションをカスタマイズして,さらに切り離された特徴の埋め込みを行うハンドファインチャ・ディアンタングルメント・エンベディング・モジュールを提案する。
最後に、モデル画像のハンドテンプレートから構造エッジ知識をよりよく学習するために、手指の制約損失をカスタマイズする。
VTON-HandFitは、実世界のシナリオにおける任意の手動オクルージョンケースに対して、公開データセットと自己収集ハンドオクルージョンハンドフィット3Kデータセットの質的、定量的評価において、ベースラインよりも優れています。
コードとデータセットは \url{https://github.com/VTON-HandFit/VTON-HandFit} で入手できる。
関連論文リスト
- ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - XHand: Real-time Expressive Hand Avatar [9.876680405587745]
我々は,手形,外観,変形をリアルタイムで生成できる表現力のある手形アバターXHandを紹介した。
XHandは、さまざまなポーズをリアルタイムで横断する手動アニメーションのための高忠実な幾何学とテクスチャを復元することができる。
論文 参考訳(メタデータ) (2024-07-30T17:49:21Z) - RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文 参考訳(メタデータ) (2024-04-22T08:44:34Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network [57.206129938611454]
本稿では,新しい3Dハンドメッシュ推定ネットワークHandOccNetを提案する。
閉鎖領域に手情報を注入することで、HandOccNetは3Dハンドメッシュベンチマークの最先端性能に達する。
論文 参考訳(メタデータ) (2022-03-28T08:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。