論文の概要: VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding
- arxiv url: http://arxiv.org/abs/2408.12340v1
- Date: Thu, 22 Aug 2024 12:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:03:43.034290
- Title: VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding
- Title(参考訳): VTON-HandFit:手書きプリミティブでガイドされた任意ハンドのバーチャルトライオン
- Authors: Yujie Liang, Xiaobin Hu, Boyuan Jiang, Donghao Luo, Kai WU, Wenhui Han, Taisong Jin, Chengjie Wang,
- Abstract要約: VTON-HandFitは手閉塞症例の外観と構造を再構成する。
手形外乱埋め込みモジュールは、手の構造パラメトリックと視覚的外観の特徴に手先をゆがめる。
モデル画像のハンドテンプレートから、構造エッジの知識をよりよく学習するために、手持ちの制約損失をカスタマイズする。
- 参考スコア(独自算出の注目度): 32.862533877948444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion-based image virtual try-on has made considerable progress, emerging approaches still struggle to effectively address the issue of hand occlusion (i.e., clothing regions occluded by the hand part), leading to a notable degradation of the try-on performance. To tackle this issue widely existing in real-world scenarios, we propose VTON-HandFit, leveraging the power of hand priors to reconstruct the appearance and structure for hand occlusion cases. Firstly, we tailor a Handpose Aggregation Net using the ControlNet-based structure explicitly and adaptively encoding the global hand and pose priors. Besides, to fully exploit the hand-related structure and appearance information, we propose Hand-feature Disentanglement Embedding module to disentangle the hand priors into the hand structure-parametric and visual-appearance features, and customize a masked cross attention for further decoupled feature embedding. Lastly, we customize a hand-canny constraint loss to better learn the structure edge knowledge from the hand template of model image. VTON-HandFit outperforms the baselines in qualitative and quantitative evaluations on the public dataset and our self-collected hand-occlusion Handfit-3K dataset particularly for the arbitrary hand pose occlusion cases in real-world scenarios. Code and dataset will be made publicly available.
- Abstract(参考訳): 拡散型画像仮想トライオンは大きな進歩を遂げているが、新しいアプローチは手排せつ問題(例えば、手の部分によって排除された衣服領域)を効果的に解決することに苦慮しており、試着性能の顕著な低下につながっている。
実世界のシナリオに広く存在するこの問題に対処するために,手前の力を利用して手閉塞症例の外観と構造を再構築するVTON-HandFitを提案する。
まず,コントロールネットをベースとした構造を用いてハンドプレイス・アグリゲーション・ネットを設計し,グローバルハンドを明示的に適応的に符号化し,事前のポーズをとる。
また,手の構造と外観情報をフル活用するために,手前を手前と手前をパラメトリック・視覚的特徴に切り離し,マスク付きクロスアテンションをカスタマイズして,さらに切り離した特徴の埋め込みを行うハンドファインチャ・ディアンタングルメント・エンベディング・モジュールを提案する。
最後に、モデル画像のハンドテンプレートから構造エッジの知識をよりよく学習するために、手指の制約損失をカスタマイズする。
VTON-HandFitは、実世界のシナリオにおける任意の手動オクルージョンケースに対して、公開データセットと自己収集ハンドオクルージョンハンドフィット3Kデータセットの質的、定量的評価において、ベースラインよりも優れています。
コードとデータセットが公開されている。
関連論文リスト
- DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance [41.213241942526935]
拡散モデルは高品質な人間の画像を生成することができるが、それらの応用は正しい構造を持つ手を生成する不安定性によって制限される。
共役構造とスタイルガイダンスの助けを借りて手領域を洗練するための条件付き拡散型フレームワーク RHanDS を提案する。
実験の結果,RHanDSは従来の手法と比較して手の構造とスタイルを効果的に洗練できることがわかった。
論文 参考訳(メタデータ) (2024-04-22T08:44:34Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - Novel-view Synthesis and Pose Estimation for Hand-Object Interaction
from Sparse Views [41.50710846018882]
スパースビューから手動物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案する。
まず,手や物体の形状や外観を,神経表現と別々に学習する。
オンライン段階では、動的手-物体相互作用を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-22T05:17:41Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand
Reconstruction [30.073586754012645]
本稿では,ACR(Attention Collaboration-based Regressor)について述べる。
本手法は,種々の手指再建データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-10T14:19:02Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network [57.206129938611454]
本稿では,新しい3Dハンドメッシュ推定ネットワークHandOccNetを提案する。
閉鎖領域に手情報を注入することで、HandOccNetは3Dハンドメッシュベンチマークの最先端性能に達する。
論文 参考訳(メタデータ) (2022-03-28T08:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。