論文の概要: Visuo-Acoustic Hand Pose and Contact Estimation
- arxiv url: http://arxiv.org/abs/2508.00852v1
- Date: Sun, 13 Jul 2025 20:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.263739
- Title: Visuo-Acoustic Hand Pose and Contact Estimation
- Title(参考訳): Visuo-Acoustic Hand Poseと接触推定
- Authors: Yuemin Ma, Uksang Yoo, Yunchao Yao, Shahram Najam Syed, Luca Bondi, Jonathan Francis, Jean Oh, Jeffrey Ichnowski,
- Abstract要約: ロボットのデータ収集、没入型仮想環境、バイオメカニカル分析には、手ポーズと手動接触イベントの正確な推定が不可欠である。
VibeMeshは、視覚をアクティブな音響センサーで融合させ、高密度で頂点ごとの接触推定を行う新しいウェアラブルシステムである。
- 参考スコア(独自算出の注目度): 18.185888431771676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating hand pose and hand-object contact events is essential for robot data-collection, immersive virtual environments, and biomechanical analysis, yet remains challenging due to visual occlusion, subtle contact cues, limitations in vision-only sensing, and the lack of accessible and flexible tactile sensing. We therefore introduce VibeMesh, a novel wearable system that fuses vision with active acoustic sensing for dense, per-vertex hand contact and pose estimation. VibeMesh integrates a bone-conduction speaker and sparse piezoelectric microphones, distributed on a human hand, emitting structured acoustic signals and capturing their propagation to infer changes induced by contact. To interpret these cross-modal signals, we propose a graph-based attention network that processes synchronized audio spectra and RGB-D-derived hand meshes to predict contact with high spatial resolution. We contribute: (i) a lightweight, non-intrusive visuo-acoustic sensing platform; (ii) a cross-modal graph network for joint pose and contact inference; (iii) a dataset of synchronized RGB-D, acoustic, and ground-truth contact annotations across diverse manipulation scenarios; and (iv) empirical results showing that VibeMesh outperforms vision-only baselines in accuracy and robustness, particularly in occluded or static-contact settings.
- Abstract(参考訳): ロボットのデータ収集、没入型仮想環境、バイオメカニカル分析には、正確に推定された手ポーズと手動接触イベントが不可欠であるが、視覚的閉塞、微妙な接触手がかり、視覚のみの知覚の制限、アクセシブルで柔軟な触覚の欠如により、依然として困難である。
そこで我々は,高密度かつ頂点ごとの接触とポーズ推定のために,能動的音響センサで視覚を融合する新しいウェアラブルシステムであるVibeMeshを紹介した。
VibeMeshは、人手で配布される骨伝導スピーカーと疎水圧電マイクロフォンを統合し、構造された音響信号を出力し、その伝搬を捉えて接触によって引き起こされる変化を推測する。
これらのクロスモーダル信号を解釈するために,高空間分解能で接触を予測するために,同期オーディオスペクトルとRGB-D由来ハンドメッシュを処理するグラフベースのアテンションネットワークを提案する。
コントリビューション:
(i)軽量で非侵襲的なビジュオ音響センシングプラットフォーム
二 共同ポーズ及び接触推論のためのクロスモーダルグラフネットワーク
三 多様な操作シナリオにまたがるRGB-D、音響及び接点アノテーションの同期データセット
(4)VibeMeshは視覚のみのベースラインの精度とロバスト性、特に排他的または静的接触的設定において優れることを示す実験結果。
関連論文リスト
- ViTaSCOPE: Visuo-tactile Implicit Representation for In-hand Pose and Extrinsic Contact Estimation [2.140861702387444]
豪華な接触リッチオブジェクト操作は、オブジェクトのポーズと外部の接触位置の両方を要求する。
ViTaSCOPE: VisuoTac 同時接触と物体推定について述べる。
論文 参考訳(メタデータ) (2025-06-13T21:35:58Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral Features [50.82725748981231]
エンゲージメント測定は、医療、教育、サービスに応用される。
生理的特徴と行動的特徴の使用は可能であるが、従来の生理的測定の非現実性は接触センサーの必要性により生じる。
コンタクトセンサの代替として, 教師なし光胸腺造影(胸腔鏡)の有用性を実証する。
論文 参考訳(メタデータ) (2024-04-05T20:39:16Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with
Feature-Matching and Perceptual Losses [13.947606247944597]
本稿では,GAN(Generative Adversarial Network)の枠組みを活用することによって,モーダルな視覚触覚データ生成のためのディープラーニングに基づくアプローチを提案する。
本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。
我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。
論文 参考訳(メタデータ) (2021-07-12T14:36:16Z) - Proximity Sensing: Modeling and Understanding Noisy RSSI-BLE Signals and
Other Mobile Sensor Data for Digital Contact Tracing [12.070047847431884]
新型コロナウイルスの感染拡大を抑える主要な健康戦略として、効果的な接触追跡によるソーシャルディスタンシングが浮上している。
本稿では、Bluetooth Low Energy(BLE)信号と他のデバイス上のセンサとの結合モデルを用いて、ペアワイズ個人近接を推定する新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-09-04T03:01:52Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。