論文の概要: AVI-HT: Adaptive Vision-IMU Fusion for 3D Hand Tracking
- arxiv url: http://arxiv.org/abs/2605.21714v1
- Date: Wed, 20 May 2026 20:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.98665
- Title: AVI-HT: Adaptive Vision-IMU Fusion for 3D Hand Tracking
- Title(参考訳): AVI-HT:3次元ハンドトラッキングのための適応型ビジョンIMUフュージョン
- Authors: Ziyi Kou, Ankit Kumar, Mia Huang, Taylor Niehues, Vatsal Mehta, Ergys Ristani, Li Guan,
- Abstract要約: 6-DoF IMU信号を用いたエゴセントリック画像の同時モデリングにより,3次元手振り追跡のための適応型視覚-IMU融合手法を提案する。
Avi-HTは、特に手動の相互作用シナリオにおいて、精度と可用性を著しく向上させる。
我々はDexGloveHOIデータセット上で、100K以上のペアワイドビジョン-IMUサンプルと同期した3Dアノテートポーズからなる広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 7.3378748076111036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AVI-HT, an adaptive visual-IMU fusion approach for tracking 3D hand poses by jointly modeling the egocentric image with on-glove 6-DoF IMU signals. AVI-HT achieves significantly improved accuracy and availability, particularly in hand-object interaction (HOI) scenarios involving heavy visual occlusion. Two complementary ingredients underpin its success: (1) synchronized multi-modal training data pairing on-body vision-IMU sensor streams with ground-truth 3D hand poses from a motion-capture system, and (2) a cross-sensor deep attention mechanism that adaptively modulates the trust assigned to the vision and individual IMU sensors. To evaluate AVI-HT in real-world settings, we conduct extensive experiments on our DexGloveHOI dataset that consists of 100K+ pairwise vision-IMU samples with synchronized 3D annotated poses, in which users manipulate a variety of objects during daily tasks. We compare against multiple single- and multi-modal tracking approaches under two hand models (UmeTrack, MANO). The results show that AVI-HT reduces mean keypoint error by 16.1% and its wrist-aligned variant by 24.2% over the baselines. Ablation studies further reveal the per-finger contribution of IMU sensors across activity types, and the model's sensitivity to IMU noise and temporal misalignment in vision-IMU fusion.
- Abstract(参考訳): AVI-HTは、6-DoF IMU信号を用いた自我中心画像の同時モデリングによる3次元手ポーズ追跡のための適応型視覚-IMU融合手法である。
AVI-HTは、特に重度の視覚的閉塞を伴う手動物体相互作用(HOI)のシナリオにおいて、精度と可用性を著しく向上する。
その成功を支える2つの相補的な要素は,(1)体上の視覚-IMUセンサストリームと地中3Dハンドのポーズを同期するマルチモーダルトレーニングデータ,(2)視覚と個別のIMUセンサーに割り当てられた信頼度を適応的に調節するクロスセンサーディープ・アテンション・メカニズムである。
AVI-HTを実世界の環境で評価するために,100K以上の視覚-IMUサンプルからなるDexGloveHOIデータセット上で,ユーザが日々のタスク中にさまざまなオブジェクトを操作する3Dアノテートポーズを同期させた大規模な実験を行った。
2つのハンドモデル(UmeTrack, MANO)における複数のシングルモーダル・マルチモーダル・トラッキング手法との比較を行った。
その結果、AVI-HTは平均キーポイント誤差を16.1%減らし、手首アラインの変種を24.2%減らした。
アブレーション研究により、IMUセンサーが活動タイプにまたがる指ごとのコントリビューションと、IMUノイズに対するモデルの感度と視覚-IMU融合における時間的ずれが明らかにされた。
関連論文リスト
- COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Robust Multimodal Learning Framework For Intake Gesture Detection Using Contactless Radar and Wearable IMU Sensors [1.6180992915701704]
本研究は,マルチモーダル学習によるウェアラブルと非接触センシングの併用により,検出性能がさらに向上するかどうかを考察する。
IMUとレーダーデータを統合し、ジェスチャー検出を強化し、モダリティの欠如した条件下での性能を維持するために、多モーダル時間畳み込みネットワーク(MM-TCN-CMA)を提案する。
食品摂取のジェスチャー検出にIMUとレーダーデータを効果的に融合する頑健なマルチモーダル学習フレームワークを実証する最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T20:15:40Z) - Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric
Human Pose Estimation [12.821740951249552]
パラメトリック・ヒューマン・キネマティック・モデルを用いてemphFusePoseというフレームワークを提案する。
IMUや視覚データの異なる情報を収集し、NaiveFuse、KineFuse、AdaDeepFuseの3つの特徴的なセンサー融合手法を導入する。
3次元人のポーズ推定の性能は、ベースライン結果よりも向上する。
論文 参考訳(メタデータ) (2022-08-25T09:35:27Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - HMD-EgoPose: Head-Mounted Display-Based Egocentric Marker-Less Tool and
Hand Pose Estimation for Augmented Surgical Guidance [0.0]
HMD-EgoPoseは、手動とオブジェクトのポーズ推定のための単発学習に基づくアプローチである。
マーカーレスハンドと手術器具のポーズトラッキングのためのベンチマークデータセット上で,最先端の性能を示す。
論文 参考訳(メタデータ) (2022-02-24T04:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。