論文の概要: REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning
- arxiv url: http://arxiv.org/abs/2504.04956v2
- Date: Tue, 08 Apr 2025 03:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 10:05:02.427481
- Title: REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning
- Title(参考訳): 自己同一性条件付き実時間自己中心型全体運動拡散(REWIND)
- Authors: Jihyun Lee, Weipeng Xu, Alexander Richard, Shih-En Wei, Shunsuke Saito, Shaojie Bai, Te-Li Wang, Minhyuk Sung, Tae-Kyun Kim, Jason Saragih,
- Abstract要約: 本稿では,一段階拡散モデルREWINDを提案する。
身体中心運動と手の動きの相関を効果的にモデル化する。
また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
- 参考スコア(独自算出の注目度): 95.07708090428814
- License:
- Abstract: We present REWIND (Real-Time Egocentric Whole-Body Motion Diffusion), a one-step diffusion model for real-time, high-fidelity human motion estimation from egocentric image inputs. While an existing method for egocentric whole-body (i.e., body and hands) motion estimation is non-real-time and acausal due to diffusion-based iterative motion refinement to capture correlations between body and hand poses, REWIND operates in a fully causal and real-time manner. To enable real-time inference, we introduce (1) cascaded body-hand denoising diffusion, which effectively models the correlation between egocentric body and hand motions in a fast, feed-forward manner, and (2) diffusion distillation, which enables high-quality motion estimation with a single denoising step. Our denoising diffusion model is based on a modified Transformer architecture, designed to causally model output motions while enhancing generalizability to unseen motion lengths. Additionally, REWIND optionally supports identity-conditioned motion estimation when identity prior is available. To this end, we propose a novel identity conditioning method based on a small set of pose exemplars of the target identity, which further enhances motion estimation quality. Through extensive experiments, we demonstrate that REWIND significantly outperforms the existing baselines both with and without exemplar-based identity conditioning.
- Abstract(参考訳): 本稿では,実時間高忠実な人物動き推定のための一段階拡散モデルREWINDを提案する。
既存の自己中心型全身(体と手)の動き推定法は、拡散に基づく反復的な動き改善による非リアルタイムで、身体とポーズの相関を捉えているのに対し、REWINDは完全に因果的かつリアルタイムに動作している。
実時間推論を実現するために,(1) 自己中心体と手の動きの相関を高速なフィードフォワード方式で効果的にモデル化する,(2) 拡散蒸留法を導入する。
一般化性を高めつつ,出力運動を因果的にモデル化するトランスフォーマーアーキテクチャを改良した。
さらにREWINDは、ID事前が利用可能であれば、ID条件の動作推定もオプションでサポートする。
そこで本研究では,ターゲットアイデンティティのポーズ例の小さなセットに基づく新しいアイデンティティ条件付け手法を提案する。
大規模な実験により,REWINDは,既存ベースラインと,類似したアイデンティティ条件を伴わずに大幅に性能を向上することを示した。
関連論文リスト
- ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - RecMoDiffuse: Recurrent Flow Diffusion for Human Motion Generation [5.535590461577558]
RecMoDiffuseは時間モデリングのための新しい再帰拡散定式化である。
人間の動作の時間的モデリングにおけるRecMoDiffuseの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T11:25:37Z) - AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising [25.839194626743126]
AnaMoDiffは2次元モーションアナログの新しい拡散法である。
私たちのゴールは、2Dドライビングビデオからソースキャラクタへの動きを、外見や自然な動きの観点から正確に転送することです。
論文 参考訳(メタデータ) (2024-02-05T22:10:54Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Motion-DVAE: Unsupervised learning for fast human motion denoising [18.432026846779372]
本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。
我々は、Motion-DVAEとともに、回帰と最適化に基づくアプローチを統一する教師なし学習型復調手法を導入する。
論文 参考訳(メタデータ) (2023-06-09T12:18:48Z) - BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion
Synthesis [14.331548412833513]
複合現実感アプリケーションは、没入感のある体験を可能にするために、ユーザのフルボディの動きを追跡する必要がある。
本稿では,この非拘束的再構成問題に対処するために,運動合成のための生成拡散モデルであるBoDiffusionを提案する。
本稿では,スムーズで現実的なフルボディモーションシーケンスを生成しつつ,スパーストラッキング入力をBoDiffusionが活用できる時間空間調和方式を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:39:05Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。