論文の概要: HHMR: Holistic Hand Mesh Recovery by Enhancing the Multimodal Controllability of Graph Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.01334v1
- Date: Mon, 3 Jun 2024 13:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:59:31.650331
- Title: HHMR: Holistic Hand Mesh Recovery by Enhancing the Multimodal Controllability of Graph Diffusion Models
- Title(参考訳): HHMR:グラフ拡散モデルのマルチモーダル制御性向上によるホリスティックハンドメッシュ回復
- Authors: Mengcheng Li, Hongwen Zhang, Yuxiang Zhang, Ruizhi Shao, Tao Yu, Yebin Liu,
- Abstract要約: 本稿では,より包括的手メッシュ回復作業において,制御可能な生成モデルを拡張した。
我々のキーとなる観察は、強力なマルチモーダル制御性を持つ単一の生成モデルにより、様々な種類のハンドメッシュ回復タスクが達成できるということである。
グラフ畳み込みとアテンション機構に基づくオールインワン拡散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.932479301873336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a trend of the deep integration of the generation and reconstruction paradigms. In this paper, we extend the ability of controllable generative models for a more comprehensive hand mesh recovery task: direct hand mesh generation, inpainting, reconstruction, and fitting in a single framework, which we name as Holistic Hand Mesh Recovery (HHMR). Our key observation is that different kinds of hand mesh recovery tasks can be achieved by a single generative model with strong multimodal controllability, and in such a framework, realizing different tasks only requires giving different signals as conditions. To achieve this goal, we propose an all-in-one diffusion framework based on graph convolution and attention mechanisms for holistic hand mesh recovery. In order to achieve strong control generation capability while ensuring the decoupling of multimodal control signals, we map different modalities to a shared feature space and apply cross-scale random masking in both modality and feature levels. In this way, the correlation between different modalities can be fully exploited during the learning of hand priors. Furthermore, we propose Condition-aligned Gradient Guidance to enhance the alignment of the generated model with the control signals, which significantly improves the accuracy of the hand mesh reconstruction and fitting. Experiments show that our novel framework can realize multiple hand mesh recovery tasks simultaneously and outperform the existing methods in different tasks, which provides more possibilities for subsequent downstream applications including gesture recognition, pose generation, mesh editing, and so on.
- Abstract(参考訳): 近年、世代と復興のパラダイムが深く統合される傾向が見られた。
本稿では,HHMR(Holistic Hand Mesh Recovery)と呼ばれる単一フレームワークで直接手メッシュ生成,塗り絵,再構築,嵌合を行う,より包括的な手メッシュ回復タスクのための,制御可能な生成モデルの拡張について述べる。
我々のキーとなる観察は、強力なマルチモーダル制御性を持つ単一の生成モデルによって、異なるタイプのハンドメッシュリカバリタスクが達成可能であることであり、そのようなフレームワークでは、異なるタスクを実現するためには、異なるシグナルを条件として与えることしか必要としない。
この目的を達成するために,グラフ畳み込みとアテンション機構に基づくオールインワン拡散フレームワークを提案する。
マルチモーダル制御信号のデカップリングを確保しつつ、強力な制御生成能力を実現するため、異なるモードを共有特徴空間にマッピングし、モダリティと特徴レベルの両方でクロススケールなランダムマスキングを適用する。
このように、手前の学習において、異なるモダリティ間の相関が完全に活用される。
さらに,生成したモデルと制御信号とのアライメントを向上させるための条件整合型グラディエントガイダンスを提案し,ハンドメッシュの再構築とフィッティングの精度を大幅に向上させる。
実験により,我々の新しいフレームワークは,複数のハンドメッシュリカバリタスクを同時に実現し,既存のメソッドを異なるタスクで上回り,ジェスチャ認識やポーズ生成,メッシュ編集など,その後の下流アプリケーションにさらなる可能性をもたらすことが示された。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Reprogramming Distillation for Medical Foundation Models [37.52464627899668]
我々はリプログラミング蒸留(RD)と呼ばれる新しいフレームワークを提案する。
RDはファンデーションモデルの本来の機能空間を再プログラミングし、下流のシナリオとより関係があるようにします。
RDは従来のPEFT法やKD法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2024-07-09T02:17:51Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - Controllable Face Synthesis with Semantic Latent Diffusion Models [6.438244172631555]
本稿では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。
提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
論文 参考訳(メタデータ) (2024-03-19T14:02:13Z) - Deep Graph Reprogramming [112.34663053130073]
グラフニューラルネットワーク(GNN)に適したタスク再利用モデル「ディープグラフ再プログラミング」
本稿では,モデル再プログラミングパラダイムと並行して,革新的なデータ再プログラミングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-28T02:04:29Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Hierarchical Graph-Convolutional Variational AutoEncoding for Generative
Modelling of Human Motion [1.2599533416395767]
人間の動きのモデルは通常、軌跡予測または行動分類に焦点を当てるが、どちらもまれである。
本稿では,階層的変動オートエンコーダと深部グラフ畳み込みニューラルネットワークに基づく新しいアーキテクチャを提案する。
この階層型グラフ共進化型自己エンコーダ(HG-VAE)は、コヒーレントな動作を生成し、分布外データを検出し、モデルの後部への勾配上昇による欠落データを出力できることを示す。
論文 参考訳(メタデータ) (2021-11-24T16:21:07Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。