論文の概要: HanDrawer: Leveraging Spatial Information to Render Realistic Hands Using a Conditional Diffusion Model in Single Stage
- arxiv url: http://arxiv.org/abs/2503.02127v1
- Date: Mon, 03 Mar 2025 23:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:06.543608
- Title: HanDrawer: Leveraging Spatial Information to Render Realistic Hands Using a Conditional Diffusion Model in Single Stage
- Title(参考訳): HanDrawer: 条件付き拡散モデルによる空間情報のレンダリング
- Authors: Qifan Fu, Xu Chen, Muhammad Asad, Shanxin Yuan, Changjae Oh, Gregory Slabaugh,
- Abstract要約: ハンドジェネレーションプロセスの条件付けを行うモジュールであるHanDrawerを提案する。
空間的に融合した特徴は、単一ステージ拡散モデル復調過程の導出に使用される。
HanDrawer氏は、ハンドリージョンに特別な注意を払いながら、イメージ機能全体を学習する。
- 参考スコア(独自算出の注目度): 16.890823951821396
- License:
- Abstract: Although diffusion methods excel in text-to-image generation, generating accurate hand gestures remains a major challenge, resulting in severe artifacts, such as incorrect number of fingers or unnatural gestures. To enable the diffusion model to learn spatial information to improve the quality of the hands generated, we propose HanDrawer, a module to condition the hand generation process. Specifically, we apply graph convolutional layers to extract the endogenous spatial structure and physical constraints implicit in MANO hand mesh vertices. We then align and fuse these spatial features with other modalities via cross-attention. The spatially fused features are used to guide a single stage diffusion model denoising process for high quality generation of the hand region. To improve the accuracy of spatial feature fusion, we propose a Position-Preserving Zero Padding (PPZP) fusion strategy, which ensures that the features extracted by HanDrawer are fused into the region of interest in the relevant layers of the diffusion model. HanDrawer learns the entire image features while paying special attention to the hand region thanks to an additional hand reconstruction loss combined with the denoising loss. To accurately train and evaluate our approach, we perform careful cleansing and relabeling of the widely used HaGRID hand gesture dataset and obtain high quality multimodal data. Quantitative and qualitative analyses demonstrate the state-of-the-art performance of our method on the HaGRID dataset through multiple evaluation metrics. Source code and our enhanced dataset will be released publicly if the paper is accepted.
- Abstract(参考訳): 拡散法はテキスト・画像生成において優れているが、正確な手の動きを生成することは大きな課題であり、不正確な指の数や不自然なジェスチャーなどの深刻な成果をもたらす。
拡散モデルが空間情報を学習して生成した手の品質を向上させるために,ハンドラワー(HanDrawer)を提案する。
具体的には,MANOハンドメッシュ頂点における内因性空間構造と物理的制約を抽出するために,グラフ畳み込み層を適用した。
次に、これらの空間的特徴を相互注意を通して他のモダリティと整合させて融合する。
空間的に融合した特徴を用いて、手領域の高品質な生成のための単一ステージ拡散モデル復調過程を導出する。
空間的特徴量融合の精度を向上させるために,HanDrawer が抽出した特徴が拡散モデルの関連層への関心領域に融合することを保証する位置保存ゼロパディング (PPZP) 融合戦略を提案する。
HanDrawer氏は、手指再建の損失とデノイングの損失が加わったことで、手指領域に特別な注意を払いながら、画像のすべての特徴を学習する。
提案手法を精度良く訓練し,評価するために,広く使用されているHaGRIDハンドジェスチャデータセットの精査・緩和を行い,高品質なマルチモーダルデータを得る。
定量的および定性的な分析により,複数の評価指標を用いたHaGRIDデータセット上での手法の最先端性能を示す。
論文が受理されれば、ソースコードと拡張データセットが公開されます。
関連論文リスト
- UniHands: Unifying Various Wild-Collected Keypoints for Personalized Hand Reconstruction [4.0025708029346445]
標準化されながらパーソナライズされたハンドモデルを作成する新しい方法であるUniHandsを提案する。
既存の暗黙的表現法とは異なり、UniHandsはMANOとNIMBLEを広く採用している。
また、メッシュから統一されたハンドジョイントを導き出し、様々なハンド関連タスクへのシームレスな統合を容易にする。
論文 参考訳(メタデータ) (2024-11-18T18:59:58Z) - Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss [12.565642618427844]
拡散モデルは、特定のポーズで人間の生成を含むイメージを合成することができる。
現在のモデルは、詳細なポーズ生成のための条件制御を適切に表現する上で課題に直面している。
本研究では,手指領域の改善に焦点をあてる拡散モデルトレーニングを実現するRACL(Regional-Aware Cycle Loss)を提案する。
論文 参考訳(メタデータ) (2024-09-13T19:09:19Z) - XHand: Real-time Expressive Hand Avatar [9.876680405587745]
我々は,手形,外観,変形をリアルタイムで生成できる表現力のある手形アバターXHandを紹介した。
XHandは、さまざまなポーズをリアルタイムで横断する手動アニメーションのための高忠実な幾何学とテクスチャを復元することができる。
論文 参考訳(メタデータ) (2024-07-30T17:49:21Z) - Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering [11.228453237603834]
本稿では,逆レンダリングを利用して手ポーズを復元し,詳細を複雑化する多視点ハンドメッシュ再構成手法を提案する。
また、ハンドメッシュとテクスチャの両方を洗練させるために、新しいハンドアルベドとメッシュ(HAM)最適化モジュールも導入した。
提案手法は,再現精度とレンダリング品質の両面において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-08T07:28:24Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。