論文の概要: Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves
- arxiv url: http://arxiv.org/abs/2603.20850v1
- Date: Sat, 21 Mar 2026 15:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.119018
- Title: Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves
- Title(参考訳): Glove2Hand:マルチモーダルセンシンググローブによる自然なハンドオブジェクトインタラクションの合成
- Authors: Xinyu Zhang, Ziyi Kou, Chuan Qin, Mia Huang, Ergys Ristani, Ankit Kumar, Lele Chen, Kun He, Abdeslam Boularias, Li Guan,
- Abstract要約: Glove2Handは、マルチモーダルセンシンググローブのHOIビデオを素手で翻訳するフレームワークだ。
HandSenseは、同期された触覚とIMU信号を備えたグローブ・ツー・ハンドビデオを備えた、最初のマルチモーダルHOIデータセットである。
- 参考スコア(独自算出の注目度): 29.4768155708928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding hand-object interaction (HOI) is fundamental to computer vision, robotics, and AR/VR. However, conventional hand videos often lack essential physical information such as contact forces and motion signals, and are prone to frequent occlusions. To address the challenges, we present Glove2Hand, a framework that translates multi-modal sensing glove HOI videos into photorealistic bare hands, while faithfully preserving the underlying physical interaction dynamics. We introduce a novel 3D Gaussian hand model that ensures temporal rendering consistency. The rendered hand is seamlessly integrated into the scene using a diffusion-based hand restorer, which effectively handles complex hand-object interactions and non-rigid deformations. Leveraging Glove2Hand, we create HandSense, the first multi-modal HOI dataset featuring glove-to-hand videos with synchronized tactile and IMU signals. We demonstrate that HandSense significantly enhances downstream bare-hand applications, including video-based contact estimation and hand tracking under severe occlusion.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)を理解することは、コンピュータビジョン、ロボティクス、AR/VRの基本である。
しかし、従来の手動ビデオは、接触力や運動信号などの重要な物理的情報を欠くことが多く、しばしば閉塞する傾向にある。
この課題に対処するために、Glove2Handというフレームワークを紹介します。これは、マルチモーダルセンシンググローブのHOIビデオを、基礎となる物理的相互作用のダイナミクスを忠実に保存しながら、フォトリアリスティックな素手で翻訳するフレームワークです。
本稿では,時間的レンダリングの整合性を保証する新しい3次元ガウスハンドモデルを提案する。
複雑な手オブジェクトの相互作用や非剛性変形を効果的に処理する拡散型手復元器を用いて、レンダリングされた手はシーンにシームレスに統合される。
Glove2Handを活用することで、最初のマルチモーダルHOIデータセットであるHandSenseを作成します。
我々は、HandSenseが、ビデオベースの接触推定や、重度の閉塞下でのハンドトラッキングを含む、下流の裸手アプリケーションを大幅に強化することを実証した。
関連論文リスト
- AirGlove: Exploring Egocentric 3D Hand Tracking and Appearance Generalization for Sensing Gloves [10.234494805527943]
本研究は,愛手を用いた視覚に基づく手の動き追跡モデルの最初の体系的評価である。
既存の素手モデルでは、素手デザインと手袋デザインの間に大きなギャップがあるため、性能が著しく低下する。
本研究では,既存のグローブを利用して学習したグローブ表現を,限られたデータで新たなグローブへ一般化するAirGloveを提案する。
論文 参考訳(メタデータ) (2026-02-05T00:24:02Z) - SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [64.3409486422946]
本研究では,手動インタラクションビデオのリアルタイム合成のための自動回帰ビデオ生成フレームワークSpriteHandを提案する。
我々のモデルは自己回帰生成のための因果推論アーキテクチャを採用し、視覚リアリズムと時間的コヒーレンスを高めるために学習後のハイブリッドアプローチを活用している。
実験は、生成的ベースラインとエンジンベースラインの両方と比較して、視覚的品質、物理的妥当性、相互作用の忠実さが優れていることを示した。
論文 参考訳(メタデータ) (2025-12-01T18:13:40Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation [11.843140646170458]
単手画像と双手画像のための大規模ドメイン固有拡散モデルFoundHandを提案する。
2Dキーポイントとセグメンテーションマスクアノテーションを備えた大規模ハンドデータセットであるFoundHand-10Mを使用している。
本モデルでは,手の動きを再現したり,手の動きを伝達したり,新しいビューを合成したりといった,中核的な機能を示す。
論文 参考訳(メタデータ) (2024-12-03T18:58:19Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - RemoteTouch: Enhancing Immersive 3D Video Communication with Hand Touch [28.096602057231035]
本システムでは,各参加者は触覚フィードバックのある大きなスクリーンの前に座る。
ローカルの参加者はスクリーンに手を差し伸べ、リモートの参加者と手をたたくことができる。
論文 参考訳(メタデータ) (2023-02-28T07:37:53Z) - Egocentric View Hand Action Recognition by Leveraging Hand Surface and
Hand Grasp Type [15.878905144552204]
このフレームワークは、手メッシュモデルの平均曲率を合成し、3次元空間における手表面形状を符号化する。
手のつかみタイプと手の平均曲率を用いることで,手の動き認識の性能が向上する。
論文 参考訳(メタデータ) (2021-09-08T17:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。