論文の概要: Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views
- arxiv url: http://arxiv.org/abs/2511.12878v2
- Date: Tue, 18 Nov 2025 05:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.794443
- Title: Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views
- Title(参考訳): Uni-Hand:エゴセントリックな視点でのユニバーサルハンドモーション予測
- Authors: Junyi Ma, Wentao Bao, Jingyi Xu, Guanzhong Sun, Yu Zheng, Erhang Zhang, Xieyuanli Chen, Hesheng Wang,
- Abstract要約: マルチモーダル入力,多次元およびマルチターゲット予測パターン,マルチタスクの可利用性を考慮したユニバーサルハンドモーション予測フレームワークを提案する。
ヒトの頭と手の動きを同時に予測し、自我中心視における動きのシナジーを捉えるために、新しい二重枝拡散法が提案されている。
文献に下流タスク評価を取り入れた最初の試みとして,手の動き予測アルゴリズムの現実的適用性を評価するための新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 40.35520614736267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting how human hands move in egocentric views is critical for applications like augmented reality and human-robot policy transfer. Recently, several hand trajectory prediction (HTP) methods have been developed to generate future possible hand waypoints, which still suffer from insufficient prediction targets, inherent modality gaps, entangled hand-head motion, and limited validation in downstream tasks. To address these limitations, we present a universal hand motion forecasting framework considering multi-modal input, multi-dimensional and multi-target prediction patterns, and multi-task affordances for downstream applications. We harmonize multiple modalities by vision-language fusion, global context incorporation, and task-aware text embedding injection, to forecast hand waypoints in both 2D and 3D spaces. A novel dual-branch diffusion is proposed to concurrently predict human head and hand movements, capturing their motion synergy in egocentric vision. By introducing target indicators, the prediction model can forecast the specific joint waypoints of the wrist or the fingers, besides the widely studied hand center points. In addition, we enable Uni-Hand to additionally predict hand-object interaction states (contact/separation) to facilitate downstream tasks better. As the first work to incorporate downstream task evaluation in the literature, we build novel benchmarks to assess the real-world applicability of hand motion forecasting algorithms. The experimental results on multiple publicly available datasets and our newly proposed benchmarks demonstrate that Uni-Hand achieves the state-of-the-art performance in multi-dimensional and multi-target hand motion forecasting. Extensive validation in multiple downstream tasks also presents its impressive human-robot policy transfer to enable robotic manipulation, and effective feature enhancement for action anticipation/recognition.
- Abstract(参考訳): 拡張現実や人間ロボットのポリシー伝達といった応用には、人間の手が自我中心の視点でどのように動くかを予測することが不可欠だ。
近年, 予測目標の不足, 固有モダリティギャップ, 絡み合った手頭動作, 下流タスクにおける限定的な検証に苦しむ, 将来可能な手道点を生成するために, ハンドトラジェクトリ予測法が開発されている。
これらの制約に対処するために,マルチモーダル入力,多次元およびマルチターゲット予測パターン,下流アプリケーションにおけるマルチタスクの可利用性を考慮したユニバーサルハンドモーション予測フレームワークを提案する。
我々は2次元空間と3次元空間の両方のハンドウェイポイントを予測するために、視覚言語融合、グローバルコンテキスト取り込み、タスク認識テキスト埋め込み注入により複数のモーダルを調和させる。
ヒトの頭と手の動きを同時に予測し、自我中心視における動きのシナジーを捉えるために、新しい二重枝拡散法が提案されている。
対象の指標を導入することで、手首や指の特定の関節の進路を予測できる。
さらに,UniHandが手動動作状態(接触・分離)を予測し,下流タスクをより容易に行えるようにする。
文献に下流タスク評価を取り入れた最初の試みとして,手の動き予測アルゴリズムの現実的適用性を評価するための新しいベンチマークを構築した。
複数の公開データセットの実験結果と新たに提案したベンチマークにより,Uni-Handは多次元・多目的手の動き予測において最先端の性能を発揮することが示された。
複数の下流タスクにおける広範囲な検証はまた、ロボット操作を可能にするための印象的なヒューマンロボットポリシーの転送と、アクション予測/認識のための効果的な機能強化を提示する。
関連論文リスト
- Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - EgoLoc: A Generalizable Solution for Temporal Interaction Localization in Egocentric Videos [13.10069586920198]
自我中心の視覚における手動物体の相互作用の分析は、VR/ARアプリケーションと人間ロボットのポリシー伝達を促進する。
EgoLocと呼ばれる新しいゼロショットアプローチを提案し、エゴセントリックなビデオで手動接触と切り離しタイムスタンプをローカライズする。
EgoLocは、視覚言語モデルを利用して、コンタクト/セパレーション属性を特定し、特定のタイムスタンプをローカライズし、さらなる改善のためにクローズドループフィードバックを提供する。
論文 参考訳(メタデータ) (2025-08-17T12:38:56Z) - Zero-Shot Temporal Interaction Localization for Egocentric Videos [13.70694228506315]
EgoLocと呼ばれる新しいゼロショットTIL手法を提案する。
2Dと3Dの両方を吸収することにより、EgoLocはHOIの接触/分離タイムスタンプに関する高品質な初期推定を直接サンプリングする。
EgoLocは、最先端のベースラインに比べて、エゴセントリックなビデオの時間的相互作用のローカライゼーションが優れている。
論文 参考訳(メタデータ) (2025-06-04T07:52:46Z) - Gaze-Guided 3D Hand Motion Prediction for Detecting Intent in Egocentric Grasping Tasks [5.018156030818883]
本稿では,手ポーズと関節位置の両方の将来のシーケンスを予測する新しいアプローチを提案する。
ベクトル量子化された変分自動エンコーダを用いて,手の動き列予測のための自己回帰生成変換器を用いた手ポーズ符号化を行う。
論文 参考訳(メタデータ) (2025-03-27T15:26:41Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - RAIN: Reinforced Hybrid Attention Inference Network for Motion
Forecasting [34.54878390622877]
本稿では,ハイブリットアテンション機構に基づく動的キー情報の選択とランク付けを行う汎用的な動き予測フレームワークを提案する。
このフレームワークは、マルチエージェント軌道予測と人間の動き予測タスクを処理するためにインスタンス化される。
我々は,異なる領域における合成シミュレーションと運動予測ベンチマークの両方について,その枠組みを検証した。
論文 参考訳(メタデータ) (2021-08-03T06:30:30Z) - Interpretable Social Anchors for Human Trajectory Forecasting in Crowds [84.20437268671733]
本研究では,人混みの軌跡を予測できるニューラルネットワークシステムを提案する。
解釈可能なルールベースのインテントを学び、ニューラルネットワークの表現可能性を利用してシーン固有の残差をモデル化する。
私たちのアーキテクチャは、インタラクション中心のベンチマークTrajNet++でテストされています。
論文 参考訳(メタデータ) (2021-05-07T09:22:34Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Multi-grained Trajectory Graph Convolutional Networks for
Habit-unrelated Human Motion Prediction [4.070072825448614]
習慣非関連な人間の運動予測のために, マルチグレイングラフ畳み込みネットワークベースの軽量フレームワークを提案する。
左利きの動作を生成するための新しい動き生成法を提案し,人間の習慣に偏りのない動きをより良くモデル化した。
humantemporal3.6m と cmu mocap を含む挑戦的データセットの実験結果は、提案モデルが0.12倍以下のパラメータで最先端を上回っていることを示している。
論文 参考訳(メタデータ) (2020-12-23T09:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。