論文の概要: Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss
- arxiv url: http://arxiv.org/abs/2409.09149v1
- Date: Fri, 13 Sep 2024 19:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:09:06.777617
- Title: Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss
- Title(参考訳): 領域認識サイクル損失を用いたデジタル手合成の適応的多モード制御
- Authors: Qifan Fu, Xiaohang Yang, Muhammad Asad, Changjae Oh, Shanxin Yuan, Gregory Slabaugh,
- Abstract要約: 拡散モデルは、特定のポーズで人間の生成を含むイメージを合成することができる。
現在のモデルは、詳細なポーズ生成のための条件制御を適切に表現する上で課題に直面している。
本研究では,手指領域の改善に焦点をあてる拡散モデルトレーニングを実現するRACL(Regional-Aware Cycle Loss)を提案する。
- 参考スコア(独自算出の注目度): 12.565642618427844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown their remarkable ability to synthesize images, including the generation of humans in specific poses. However, current models face challenges in adequately expressing conditional control for detailed hand pose generation, leading to significant distortion in the hand regions. To tackle this problem, we first curate the How2Sign dataset to provide richer and more accurate hand pose annotations. In addition, we introduce adaptive, multi-modal fusion to integrate characters' physical features expressed in different modalities such as skeleton, depth, and surface normal. Furthermore, we propose a novel Region-Aware Cycle Loss (RACL) that enables the diffusion model training to focus on improving the hand region, resulting in improved quality of generated hand gestures. More specifically, the proposed RACL computes a weighted keypoint distance between the full-body pose keypoints from the generated image and the ground truth, to generate higher-quality hand poses while balancing overall pose accuracy. Moreover, we use two hand region metrics, named hand-PSNR and hand-Distance for hand pose generation evaluations. Our experimental evaluations demonstrate the effectiveness of our proposed approach in improving the quality of digital human pose generation using diffusion models, especially the quality of the hand region. The source code is available at https://github.com/fuqifan/Region-Aware-Cycle-Loss.
- Abstract(参考訳): 拡散モデルは、特定のポーズにおける人間の生成を含む、画像の合成能力を示す。
しかし、現在のモデルは、詳細な手ポーズ生成のための条件制御を適切に表現する上で困難に直面しており、手領域にかなりの歪みをもたらしている。
この問題に対処するため、まずHow2Signデータセットをキュレートして、よりリッチで正確なハンドポーズアノテーションを提供します。
さらに,スケルトン,深度,表面の正常といった異なるモダリティで表現される文字の物理的特徴を統合するために,適応的な多モード融合を導入する。
さらに、拡散モデルトレーニングが手領域の改善に集中できる新しい領域認識サイクル損失(RACL)を提案し、それによって生成した手の動きの質が向上する。
より具体的には、提案したRACLは、生成画像から得られた全体ポーズキーポイントと地上真実との間の重み付きキーポイント距離を計算し、全体的なポーズ精度のバランスを保ちながら、高品質の手ポーズを生成する。
また,ハンドポーズ生成評価にはハンドポーズとハンドディスタンスという2つの手領域の指標を用いる。
提案手法の有効性を実験的に評価し,拡散モデル,特に手指領域の品質を用いて,デジタルポーズ生成の質を向上させる方法を提案する。
ソースコードはhttps://github.com/fuqifan/Region-Aware-Cycle-Lossで入手できる。
関連論文リスト
- Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars [47.61442517627826]
本稿では,3次元ガウススプラッティング(GS)と単一画像入力と手を相互作用するアニマタブルアバターを提案する。
提案手法は大規模なInterHand2.6Mデータセットの広範な実験により検証される。
論文 参考訳(メタデータ) (2024-10-11T14:14:51Z) - High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文 参考訳(メタデータ) (2024-03-15T23:31:41Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。