Fugu-MT 論文翻訳(概要): Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs

論文の概要: Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs

arxiv url: http://arxiv.org/abs/2604.21926v1
Date: Thu, 23 Apr 2026 17:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.825801
Title: Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs
Title（参考訳）: 目のない目:ウェアラブルIMUからの4Dヒューマンシーン理解
Authors: Hao-Yu Hsu, Tianhang Cheng, Jing Wen, Alexander G. Schwing, Shenlong Wang,
Abstract要約: IMU-to--4Dは、ウェアラブルセンサから人間の動きと3Dレイアウトを再構築するフレームワークである。 IMU-to--4Dは、イヤホン、時計、スマートフォンからの慣性センサーのデータを使用し、粗いシーン構造とともに詳細な4D人間の動きを予測する。 IMU-to-4DはSoTAdパイプラインよりもコヒーレントで時間的に安定な結果が得られる。
参考スコア（独自算出の注目度）: 85.01118931556098
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding human activities and their surrounding environments typically relies on visual perception, yet cameras pose persistent challenges in privacy, safety, energy efficiency, and scalability. We explore an alternative: 4D perception without vision. Its goal is to reconstruct human motion and 3D scene layouts purely from everyday wearable sensors. For this we introduce IMU-to-4D, a framework that repurposes large language models for non-visual spatiotemporal understanding of human-scene dynamics. IMU-to-4D uses data from a few inertial sensors from earbuds, watches, or smartphones and predicts detailed 4D human motion together with coarse scene structure. Experiments across diverse human-scene datasets show that IMU-to-4D yields more coherent and temporally stable results than SoTA cascaded pipelines, suggesting wearable motion sensors alone can support rich 4D understanding.
Abstract（参考訳）: 人間の活動と周囲の環境を理解することは、一般的に視覚的知覚に依存するが、カメラはプライバシー、安全性、エネルギー効率、スケーラビリティに永続的な課題をもたらす。視覚のない4D知覚という選択肢を探求する。その目標は、人間の動きと3Dシーンのレイアウトを、日常的なウェアラブルセンサーから純粋に再構築することだ。 IMU-to-4Dは,視覚的でない時空間的人間の動力学的理解のために,大規模言語モデルを再利用したフレームワークである。 IMU-to-4Dは、イヤホン、時計、スマートフォンからの慣性センサーのデータを使用し、粗いシーン構造とともに詳細な4D人間の動きを予測する。多様な人間シーンのデータセットを用いた実験では、IMU-to-4DはSoTAのカスケードパイプラインよりもコヒーレントで時間的に安定な結果が得られることが示され、ウェアラブルモーションセンサーだけでもリッチな4D理解をサポートできることが示唆された。

関連論文リスト

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文参考訳（メタデータ） (2026-02-26T16:53:41Z)
4D-based Robot Navigation Using Relativistic Image Processing [0.0]
4D知覚は、時間とともに自分の位置と環境の変化を予測する可能性を提供する。相対論的画像処理を用いたロボットナビゲーションのための4次元アプローチを提案する。
論文参考訳（メタデータ） (2024-10-29T14:42:19Z)
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR [43.43745311617461]
我々は,Human-centered Interactionと4D Scene Capture法であるHiSC4Dを紹介する。ボディマウントのIMUとヘッドマウントのLiDARを利用することで、HiSC4Dは非拘束空間における自我中心の人間の動きを捉えることができる。 4つの大きなシーン(200〜5000ドル)に8つのシーケンスを含むデータセットを提示し、正確な4次元動作の36kフレームを提供する。
論文参考訳（メタデータ） (2024-09-06T16:43:04Z)
TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments [106.80978555346958]
現在の方法では、地球上の座標で動く人間を確実に推定することはできない。 TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初の1段階の手法である。トラッキングとHPSベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-06-05T13:00:44Z)
HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor Space Using Wearable IMUs and LiDAR [51.9200422793806]
ボディマウントのIMUとLiDARのみを使用することで、HSC4Dは外部機器の制約なしに空間自由となり、マップ無しで事前に構築された地図を作成できる。人間と環境の関係も研究され、対話をより現実的なものにしている。
論文参考訳（メタデータ） (2022-03-17T10:05:55Z)
Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文参考訳（メタデータ） (2021-08-23T20:47:09Z)
Human POSEitioning System (HPS): 3D Human Pose Estimation and Self-localization in Large Scenes from Body-Mounted Sensors [71.29186299435423]
HPS(Human POSEitioning System)は、周囲の環境の3Dスキャンで登録された人間の完全な3Dポーズを回復する手法です。最適化に基づく統合は2つの利点を生かし、結果としてドリフトのないポーズの精度が得られることを示す。 hpsは、人間が外部カメラに直接視線を向けなくてもシーンと対話できるvr/arアプリケーションとして使用できる。
論文参考訳（メタデータ） (2021-03-31T17:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。