論文の概要: Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context
- arxiv url: http://arxiv.org/abs/2512.19283v1
- Date: Mon, 22 Dec 2025 11:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.727384
- Title: Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context
- Title(参考訳): シークエンス・レベルコンテキストを用いた手持ちエゴセントリック運動再構成
- Authors: Kyungwon Cho, Hanbyul Joo,
- Abstract要約: 本稿では,頭部軌跡と間欠的に見える手探触子を直接条件とする,最初の手認識型シーケンスレベルの拡散フレームワークHaMoSを提案する。
また, 身体形状や視野といったシーケンスレベルのコンテキストが, 正確な運動再構成に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 17.735273173582716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric vision systems are becoming widely available, creating new opportunities for human-computer interaction. A core challenge is estimating the wearer's full-body motion from first-person videos, which is crucial for understanding human behavior. However, this task is difficult since most body parts are invisible from the egocentric view. Prior approaches mainly rely on head trajectories, leading to ambiguity, or assume continuously tracked hands, which is unrealistic for lightweight egocentric devices. In this work, we present HaMoS, the first hand-aware, sequence-level diffusion framework that directly conditions on both head trajectory and intermittently visible hand cues caused by field-of-view limitations and occlusions, as in real-world egocentric devices. To overcome the lack of datasets pairing diverse camera views with human motion, we introduce a novel augmentation method that models such real-world conditions. We also demonstrate that sequence-level contexts such as body shape and field-of-view are crucial for accurate motion reconstruction, and thus employ local attention to infer long sequences efficiently. Experiments on public benchmarks show that our method achieves state-of-the-art accuracy and temporal smoothness, demonstrating a practical step toward reliable in-the-wild egocentric 3D motion understanding.
- Abstract(参考訳): エゴセントリックな視覚システムは広く利用されており、人間とコンピュータの相互作用の新しい機会を生み出している。
主な課題は、人間の行動を理解するのに不可欠であるファースト・パーソン・ビデオから、着用者の全身の動きを推定することである。
しかし、ほとんどの身体部分は自我中心の視点では見えないため、この作業は困難である。
従来のアプローチは主に頭部の軌跡に依存しており、曖昧さにつながるか、連続的に追跡された手と仮定する。
本研究では,実世界のエゴセントリックデバイスのように,視野の制限やオクルージョンによって引き起こされる,頭部の軌跡と間欠的に見える両手の手がかりを直接的に条件付ける,最初の手認識型シーケンスレベルの拡散フレームワークであるHaMoSを提案する。
多様なカメラビューと人間の動きを組み合わせたデータセットの欠如を克服するために、このような現実世界の状況をモデル化する新しい拡張手法を導入する。
また、身体形状や視野といったシーケンスレベルのコンテキストが正確な動きの復元に不可欠であることを示し、長いシーケンスを効率よく推測するために局所的な注意を払っている。
評価実験の結果,提案手法は最先端の精度と時間的スムーズさを達成し,信頼性の高い自己中心型3次元運動理解に向けた実践的なステップを示す。
関連論文リスト
- ECHO: Ego-Centric modeling of Human-Object interactions [71.17118015822699]
ECHO (Ego-Centric Modeling of Human-Object Interaction) を開発した。
人間のポーズ、物体の動き、そしてそのような最小限の観察から接触の3つのモダリティを回復する。
同じ柔軟性を提供しない既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-08-29T12:12:22Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Estimating Ego-Body Pose from Doubly Sparse Egocentric Video Data [16.431101717478796]
エゴボディポーズ推定の現在の手法は、時間的に密度の高いセンサデータに依存している。
本研究では,問題を時間的完備化と空間的完備化に分解する2段階のアプローチを開発する。
論文 参考訳(メタデータ) (2024-11-05T23:53:19Z) - MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos [27.766405152248055]
手の軌道予測は人間の動きのパターンを理解する上で重要な役割を担っている。
しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。
拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffと呼ばれる新しいハンドトラジェクトリ予測手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:06:33Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - 4D Human Body Capture from Egocentric Video via 3D Scene Grounding [38.3169520384642]
本稿では,モノクラーエゴセントリックビデオから2人称3D人体メッシュの時系列を再構築する新しい課題を紹介する。
エゴセントリックなビデオのユニークな視点と迅速なカメラの動きは、人間の身体を捉えるための技術的な障壁を増す。
論文 参考訳(メタデータ) (2020-11-26T15:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。