論文の概要: Novel Diffusion Models for Multimodal 3D Hand Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2504.07375v1
- Date: Thu, 10 Apr 2025 01:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:58.305471
- Title: Novel Diffusion Models for Multimodal 3D Hand Trajectory Prediction
- Title(参考訳): マルチモーダル3次元ハンド軌道予測のための新しい拡散モデル
- Authors: Junyi Ma, Wentao Bao, Jingyi Xu, Guanzhong Sun, Xieyuanli Chen, Hesheng Wang,
- Abstract要約: マルチモーダル3次元ハンドトラジェクトリ予測のための新しい拡散モデル(MMTwin)を提案する。
MMTwinは、2D RGBイメージ、3Dポイントクラウド、パスハンドウェイポイント、テキストプロンプトを含む入力としてマルチモーダル情報を吸収するように設計されている。
2つの潜伏拡散モデル、すなわち、双生児としての自走拡散とHTP拡散をMMTwinに統合し、カメラの自走と将来のハンドトラジェクトリを同時に予測する。
- 参考スコア(独自算出の注目度): 26.204219108066454
- License:
- Abstract: Predicting hand motion is critical for understanding human intentions and bridging the action space between human movements and robot manipulations. Existing hand trajectory prediction (HTP) methods forecast the future hand waypoints in 3D space conditioned on past egocentric observations. However, such models are only designed to accommodate 2D egocentric video inputs. There is a lack of awareness of multimodal environmental information from both 2D and 3D observations, hindering the further improvement of 3D HTP performance. In addition, these models overlook the synergy between hand movements and headset camera egomotion, either predicting hand trajectories in isolation or encoding egomotion only from past frames. To address these limitations, we propose novel diffusion models (MMTwin) for multimodal 3D hand trajectory prediction. MMTwin is designed to absorb multimodal information as input encompassing 2D RGB images, 3D point clouds, past hand waypoints, and text prompt. Besides, two latent diffusion models, the egomotion diffusion and the HTP diffusion as twins, are integrated into MMTwin to predict camera egomotion and future hand trajectories concurrently. We propose a novel hybrid Mamba-Transformer module as the denoising model of the HTP diffusion to better fuse multimodal features. The experimental results on three publicly available datasets and our self-recorded data demonstrate that our proposed MMTwin can predict plausible future 3D hand trajectories compared to the state-of-the-art baselines, and generalizes well to unseen environments. The code and pretrained models will be released at https://github.com/IRMVLab/MMTwin.
- Abstract(参考訳): 手の動きを予測することは、人間の意図を理解し、人間の動きとロボット操作の間の行動空間をブリッジするために重要である。
既存のハンドトラジェクトリ予測(HTP)手法は、過去の自我中心の観測に基づいて、3次元空間における将来のハンドウェイポイントを予測する。
しかし、そのようなモデルは2Dエゴセントリックなビデオ入力にのみ対応できるように設計されている。
2次元と3次元の両方の観測結果からマルチモーダルな環境情報の認識が欠如しており、3次元HTP性能のさらなる向上を妨げている。
さらに、これらのモデルは、手の動きとヘッドセットカメラのエゴモーションの相乗効果を見落とし、手の動きを別々に予測するか、過去のフレームからのみエゴモーションを符号化する。
これらの制約に対処するため,マルチモーダル3次元ハンドトラジェクトリ予測のための新しい拡散モデル (MMTwin) を提案する。
MMTwinは、2D RGBイメージ、3Dポイントクラウド、パスハンドウェイポイント、テキストプロンプトを含む入力としてマルチモーダル情報を吸収するように設計されている。
さらに,2つの潜伏拡散モデル,双生児としての自走拡散とHTP拡散をMMTwinに統合し,カメラの自走と将来のハンドトラジェクトリを同時に予測する。
本稿では,HTP拡散のデノナイズモデルとして,マルチモーダル特性の改善を目的とした新しいハイブリッド型Mamba-Transformerモジュールを提案する。
3つの公開データセットと自己記録データによる実験結果から,提案したMMTwinは,最先端のベースラインと比較して,有望な未来の3Dハンドトラジェクトリを予測でき,未知の環境によく適応できることが示された。
コードと事前訓練されたモデルはhttps://github.com/IRMVLab/MMTwin.comでリリースされる。
関連論文リスト
- 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos [27.766405152248055]
手の軌道予測は人間の動きのパターンを理解する上で重要な役割を担っている。
しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。
拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffと呼ばれる新しいハンドトラジェクトリ予測手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:06:33Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z) - Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand
Disentanglement [42.98335775548796]
両手指離断に基づく2段階手指生成手法を提案する。
第1段階では、2つの手振り枝による自然な手振りを生成する。
第2段階は、3Dハンドの予測は非決定論的であるべきだという洞察に基づいて構築されている。
論文 参考訳(メタデータ) (2023-03-03T08:08:04Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。