論文の概要: DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh
Recovery from a Video
- arxiv url: http://arxiv.org/abs/2303.13397v2
- Date: Wed, 29 Mar 2023 02:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:31:05.118878
- Title: DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh
Recovery from a Video
- Title(参考訳): DDT:ビデオからのヒューマンメッシュ回復のための拡散駆動型トランスフォーマーベースのフレームワーク
- Authors: Ce Zheng, Guo-Jun Qi, Chen Chen
- Abstract要約: ビデオベースのヒューマンメッシュリカバリのための拡散駆動トランスフォーマーベースフレームワーク(DDT)を紹介する。
DDTは入力シーケンスから特定の動きパターンをデコードし、動きの滑らかさと時間的一貫性を高めるように設計されている。
DDTのデコーダは、多対多のアプローチとして、すべてのフレームのヒューマンメッシュを出力します。
- 参考スコア(独自算出の注目度): 48.863772644585396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human mesh recovery (HMR) provides rich human body information for various
real-world applications such as gaming, human-computer interaction, and virtual
reality. Compared to single image-based methods, video-based methods can
utilize temporal information to further improve performance by incorporating
human body motion priors. However, many-to-many approaches such as VIBE suffer
from motion smoothness and temporal inconsistency. While many-to-one approaches
such as TCMR and MPS-Net rely on the future frames, which is non-causal and
time inefficient during inference. To address these challenges, a novel
Diffusion-Driven Transformer-based framework (DDT) for video-based HMR is
presented. DDT is designed to decode specific motion patterns from the input
sequence, enhancing motion smoothness and temporal consistency. As a
many-to-many approach, the decoder of our DDT outputs the human mesh of all the
frames, making DDT more viable for real-world applications where time
efficiency is crucial and a causal model is desired. Extensive experiments are
conducted on the widely used datasets (Human3.6M, MPI-INF-3DHP, and 3DPW),
which demonstrated the effectiveness and efficiency of our DDT.
- Abstract(参考訳): human mesh recovery(hmr)は、ゲーム、人間とコンピュータのインタラクション、仮想現実など、さまざまな現実のアプリケーションに対して、豊富な人体情報を提供する。
単一の画像ベースの手法と比較して、ビデオベースの手法は、時間的情報を利用して人体の動きの先行を取り入れることで、パフォーマンスをさらに向上させることができる。
しかし、VIBEのような多対多のアプローチは、動きの滑らかさと時間的矛盾に悩まされている。
TCMRやMPS-Netのような多くの対1のアプローチは将来のフレームに依存している。
これらの課題に対処するために、ビデオベースのHMRのためのDDT(Diffusion-Driven Transformer-based framework)を紹介した。
DDTは入力シーケンスから特定の動きパターンをデコードし、動きの滑らかさと時間的一貫性を高めるように設計されている。
多数対多のアプローチとして、私たちのDDTデコーダは、すべてのフレームのヒューマンメッシュを出力します。
広範に使われているデータセット(Human3.6M, MPI-INF-3DHP, 3DPW)を用いて, DDTの有効性と有効性を示す実験を行った。
関連論文リスト
- Motion Diffusion-Guided 3D Global HMR from a Dynamic Camera [3.6948631725065355]
拡散最適化を用いた新しい3次元大域HMR法DiffOptを提案する。
我々の重要な洞察は、動き拡散モデル(MDM)のような人間の動き生成の最近の進歩は、コヒーレントな人間の動きの強い先行を含むことである。
我々はDiffOptをGlobal 3D Human Pose and Shape in the Wildの電磁データベースからビデオシーケンスで検証した。
論文 参考訳(メタデータ) (2024-11-15T21:09:40Z) - MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - Distribution-Aligned Diffusion for Human Mesh Recovery [16.64567393672489]
本稿では,人間のメッシュ回復のための拡散に基づくアプローチを提案する。
本稿では,メッシュ回復を逆拡散過程とするHuman Mesh Diffusion(HMDiff)フレームワークを提案する。
提案手法は, 広く使用されている3つのデータセットに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T13:29:31Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。
我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-09-29T16:27:53Z) - Learning Local Recurrent Models for Human Mesh Recovery [50.85467243778406]
本稿では,人間のメッシュを標準的な骨格モデルに従って複数の局所的に分割するビデオメッシュ復元手法を提案する。
次に、各局所部分の力学を別個のリカレントモデルでモデル化し、各モデルは、人体の既知の運動構造に基づいて適切に条件付けする。
これにより、構造的インフォームドな局所的再帰学習アーキテクチャが実現され、アノテーションを使ってエンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-07-27T14:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。