論文の概要: Mem-MLP: Real-Time 3D Human Motion Generation from Sparse Inputs
- arxiv url: http://arxiv.org/abs/2511.16264v1
- Date: Thu, 20 Nov 2025 11:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.592777
- Title: Mem-MLP: Real-Time 3D Human Motion Generation from Sparse Inputs
- Title(参考訳): Mem-MLP:スパース入力によるリアルタイム3次元人体運動生成
- Authors: Sinan Mutlu, Georgios F. Angelis, Savas Ozkan, Paul Wisbey, Anastasios Drosou, Mete Ozay,
- Abstract要約: フルボディトラッキングは没入型AR/VRアプリケーションにとって不可欠である。
潜在的なアプローチの1つは、ニューラルネットワーク(NN)モデルを用いて限られたセンサーから収集されたスパース入力から全体の動きを生成することである。
本稿では,残差接続により強化された多層パーセプトロン(MLP)バックボーンと,メモリブロックと呼ばれる新しいNN成分を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 18.82033824223543
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Realistic and smooth full-body tracking is crucial for immersive AR/VR applications. Existing systems primarily track head and hands via Head Mounted Devices (HMDs) and controllers, making the 3D full-body reconstruction in-complete. One potential approach is to generate the full-body motions from sparse inputs collected from limited sensors using a Neural Network (NN) model. In this paper, we propose a novel method based on a multi-layer perceptron (MLP) backbone that is enhanced with residual connections and a novel NN-component called Memory-Block. In particular, Memory-Block represents missing sensor data with trainable code-vectors, which are combined with the sparse signals from previous time instances to improve the temporal consistency. Furthermore, we formulate our solution as a multi-task learning problem, allowing our MLP-backbone to learn robust representations that boost accuracy. Our experiments show that our method outperforms state-of-the-art baselines by substantially reducing prediction errors. Moreover, it achieves 72 FPS on mobile HMDs that ultimately improves the accuracy-running time tradeoff.
- Abstract(参考訳): 没入型AR/VRアプリケーションには、現実的でスムーズなフルボディトラッキングが不可欠だ。
既存のシステムはヘッドマウントデバイス(Head Mounted Devices, HMD)とコントローラーを介して頭と手を追跡し、3Dフルボディの再構築を不完全なものにしている。
潜在的なアプローチの1つは、ニューラルネットワーク(NN)モデルを用いて限られたセンサーから収集されたスパース入力から全体の動きを生成することである。
本稿では,残差接続により強化された多層パーセプトロン(MLP)バックボーンと,メモリブロックと呼ばれる新しいNN成分を用いた新しい手法を提案する。
特にMemory-Blockは、トレーニング可能なコードベクタと、以前のタイムインスタンスのスパース信号と組み合わせて、時間的一貫性を改善することで、センサデータ不足を表現している。
さらに、マルチタスク学習問題としてソリューションを定式化し、MLPバックボーンが精度を高める堅牢な表現を学習できるようにする。
実験の結果,提案手法は予測誤差を大幅に減らし,最先端のベースラインよりも優れていることがわかった。
さらに、モバイルHMD上で72FPSを実現し、最終的に精度の高い時間トレードオフを改善する。
関連論文リスト
- Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - Efficient 3D Full-Body Motion Generation from Sparse Tracking Inputs with Temporal Windows [12.447337863027833]
計算コストとメモリオーバヘッドのバランスを保ちながら全体の性能を向上し,効率的な3次元フルボディ生成を実現する,MLP(Multi-Layer Perceptron)に基づく新しい手法を提案する。
このNN機構による手法の生成精度は, 現状の手法に比べて有意に向上していることを示す。
論文 参考訳(メタデータ) (2025-05-03T12:17:47Z) - NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection [17.631688089207724]
屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
従来の研究では、暗黙の表現は視覚的な3D知覚タスクに役立てる能力を持っていることが示されている。
これらの問題に対処するために, 単純で効果的なNeRF-DetSを提案する。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - NICP: Neural ICP for 3D Human Registration at Scale [35.631505786332454]
本研究では,3次元人間登録のためのニューラルネットワーク拡張型登録手法NSRを提案する。
NSRは、数千の形状と10以上の異なるデータソースを一般化し、スケールする。
我々の重要な貢献は、ICPスタイルの自己教師型タスクであるNICPである。
論文 参考訳(メタデータ) (2023-12-21T16:54:09Z) - ResFields: Residual Neural Fields for Spatiotemporal Signals [61.44420761752655]
ResFieldsは、複雑な時間的信号を効果的に表現するために設計された新しいネットワークのクラスである。
本稿では,ResFieldの特性を包括的に解析し,トレーニング可能なパラメータの数を減らすための行列分解手法を提案する。
スパースRGBDカメラからダイナミックな3Dシーンをキャプチャする効果を示すことで,ResFieldsの実用性を実証する。
論文 参考訳(メタデータ) (2023-09-06T16:59:36Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic
3D Reconstruction [14.130915525776055]
RGBDに基づくリアルタイム動的3次元再構成は、フレーム間運動推定の不正確さに悩まされる。
オクルージョンフュージョン(OcclusionFusion, OcclusionFusion)は、オクルージョンを意識した3次元運動を計算し、再構成を誘導する手法である。
本手法は,既存の単一ビューベースリアルタイム手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-15T15:09:01Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - VoteHMR: Occlusion-Aware Voting Network for Robust 3D Human Mesh
Recovery from Partial Point Clouds [32.72878775887121]
単フレーム部分点雲から信頼性の高い3次元形状を復元する最初の試みを行う。
本稿では,VoteHMRというエンドツーエンドの学習方法を提案する。
提案手法は,2つの大規模データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-17T05:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。