論文の概要: HiSync: Spatio-Temporally Aligning Hand Motion from Wearable IMU and On-Robot Camera for Command Source Identification in Long-Range HRI
- arxiv url: http://arxiv.org/abs/2603.11809v1
- Date: Thu, 12 Mar 2026 11:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.721889
- Title: HiSync: Spatio-Temporally Aligning Hand Motion from Wearable IMU and On-Robot Camera for Command Source Identification in Long-Range HRI
- Title(参考訳): HiSync: ロングランジHRIのコマンドソース識別のためのウェアラブルIMUとオンロボットカメラによる手の動きの時空間調整
- Authors: Chengwen Zhang, Chun Yu, Borong Zhuang, Haopeng Jin, Qingyang Wan, Zhuojun Li, Zhe He, Zhoutong Ye, Yu Mei, Chang Liu, Weinan Shi, Yuanchun Shi,
- Abstract要約: HiSyncは、ハンドウーンのIMU信号とロボット搭載のカメラ光の流れを合わせることで、手の動きをバインドキューとして扱う。
最大34mまでの3人のシーンでは、HiSyncは92.32%のCSI精度を達成し、以前のSOTAの48.44%を上回った。
- 参考スコア(独自算出の注目度): 31.369304998165575
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-range Human-Robot Interaction (HRI) remains underexplored. Within it, Command Source Identification (CSI) - determining who issued a command - is especially challenging due to multi-user and distance-induced sensor ambiguity. We introduce HiSync, an optical-inertial fusion framework that treats hand motion as binding cues by aligning robot-mounted camera optical flow with hand-worn IMU signals. We first elicit a user-defined (N=12) gesture set and collect a multimodal command gesture dataset (N=38) in long-range multi-user HRI scenarios. Next, HiSync extracts frequency-domain hand motion features from both camera and IMU data, and a learned CSINet denoises IMU readings, temporally aligns modalities, and performs distance-aware multi-window fusion to compute cross-modal similarity of subtle, natural gestures, enabling robust CSI. In three-person scenes up to 34m, HiSync achieves 92.32% CSI accuracy, outperforming the prior SOTA by 48.44%. HiSync is also validated on real-robot deployment. By making CSI reliable and natural, HiSync provides a practical primitive and design guidance for public-space HRI.
- Abstract(参考訳): HRI(Long-range Human-Robot Interaction)はいまだ研究されていない。
コマンドソース識別(Command Source Identification, CSI) - コマンドを発行したかを判断する - は、マルチユーザと距離によって引き起こされるセンサの曖昧さのため、特に困難である。
ロボット搭載型カメラ光フローとハンドウーンIMU信号とを整列させることにより,手の動きをバインドキューとして扱う光慣性融合フレームワークであるHiSyncを紹介する。
まず,ユーザ定義(N=12)ジェスチャセットを抽出し,マルチモーダルコマンドジェスチャデータセット(N=38)を長距離マルチユーザHRIシナリオで収集する。
次に、HiSyncは、カメラとIMUデータの両方から周波数領域の手の動きの特徴を抽出し、学習したCSINetは、IMUの読みを識別し、時間的にモダリティを調整し、微妙で自然なジェスチャーのクロスモーダルな類似性を計算し、堅牢なCSIを実現する。
最大34mまでの3人のシーンでは、HiSyncは92.32%のCSI精度を達成し、以前のSOTAの48.44%を上回った。
HiSyncは実ロボットのデプロイでも検証されている。
CSIを信頼性と自然なものにすることで、HiSyncはパブリックスペースのHRIに対して実用的なプリミティブと設計のガイダンスを提供する。
関連論文リスト
- Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking [11.834891226231898]
Fusion-Polyは、非同期LiDARとカメラデータを統合する3D MOTのための時空間融合フレームワークである。
nuScenesテストセットでは、Fusion-Polyは76.5%のAMOTAを達成した。
論文 参考訳(メタデータ) (2026-03-09T10:26:44Z) - Quantum Time Synchronization of Star Networks [0.45880283710344066]
集中型SPDCソースからの絡み合った光子対は、1×Nスプリッタを介して4つのリモートユーザへ分散される。
市販の単一光子検出器と時間タガーを用いて,50psの時間精度を中央値とした。
論文 参考訳(メタデータ) (2026-03-04T22:29:27Z) - RocSync: Millisecond-Accurate Temporal Synchronization for Heterogeneous Camera Systems [38.099313678683224]
多様なカメラシステム間でミリ秒レベルの時間的アライメントを実現するための,低コストで汎用的な同期方式を提案する。
提案したソリューションは、赤と赤で時間をエンコードし、露光ウィンドウの視覚的デコードを可能にする、カスタムビルドの itLED クロックを採用している。
IRとRGBの両モードにまたがる25以上の異種カメラを用いた大規模な手術記録において,本システムの有効性を検証した。
論文 参考訳(メタデータ) (2025-11-18T22:13:06Z) - Group Inertial Poser: Multi-Person Pose and Global Translation from Sparse Inertial Sensors and Ultra-Wideband Ranging [28.86800972797388]
Group Inertial Poserは、身体のポーズを強く推定し、複数の個人に対してグローバルな翻訳を行うための新しいアプローチである。
Group Inertial Poserは、超広帯域距離(UWB)からの2組のセンサー間の絶対距離を推定する
2人追跡のための最初のIMU+UWBデータセットであるGIP-DBを導入する。
論文 参考訳(メタデータ) (2025-10-24T17:11:50Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。