Fugu-MT 論文翻訳(概要): Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion

論文の概要: Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion

arxiv url: http://arxiv.org/abs/2602.23694v2
Date: Thu, 05 Mar 2026 08:41:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 15:25:24.05251
Title: Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion
Title（参考訳）: 対数類似比融合によるドローン・移動ロボット遠隔操作のための解釈可能なマルチモーダルジェスチャー認識
Authors: Seungyeol Baek, Jaspreet Singh, Lala Shakti Swarup Ray, Hymalai Bello, Paul Lukowicz, Sungho Suh,
Abstract要約: 視覚に基づくジェスチャー認識はハンズフリー遠隔操作の一手法として検討されている。両手首にApple Watchの慣性データとカスタム手袋の容量感覚信号を統合するマルチモーダルジェスチャー認識フレームワークを提案する。我々のフレームワークは、最先端のビジョンベースのベースラインに匹敵するパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 14.332919759770645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human operators are still frequently exposed to hazardous environments such as disaster zones and industrial facilities, where intuitive and reliable teleoperation of mobile robots and Unmanned Aerial Vehicles (UAVs) is essential. In this context, hands-free teleoperation enhances operator mobility and situational awareness, thereby improving safety in hazardous environments. While vision-based gesture recognition has been explored as one method for hands-free teleoperation, its performance often deteriorates under occlusions, lighting variations, and cluttered backgrounds, limiting its applicability in real-world operations. To overcome these limitations, we propose a multimodal gesture recognition framework that integrates inertial data (accelerometer, gyroscope, and orientation) from Apple Watches on both wrists with capacitive sensing signals from custom gloves. We design a late fusion strategy based on the log-likelihood ratio (LLR), which not only enhances recognition performance but also provides interpretability by quantifying modality-specific contributions. To support this research, we introduce a new dataset of 20 distinct gestures inspired by aircraft marshalling signals, comprising synchronized RGB video, IMU, and capacitive sensor data. Experimental results demonstrate that our framework achieves performance comparable to a state-of-the-art vision-based baseline while significantly reducing computational cost, model size, and training time, making it well suited for real-time robot control. We therefore underscore the potential of sensor-based multimodal fusion as a robust and interpretable solution for gesture-driven mobile robot and drone teleoperation.
Abstract（参考訳）: ロボットと無人航空機(UAV)の直感的で信頼性の高い遠隔操作が不可欠である災害地帯や産業施設などの危険環境に、人間のオペレーターは依然として頻繁に晒されている。この文脈では、ハンズフリーの遠隔操作はオペレーターのモビリティと状況意識を高め、危険環境の安全性を向上させる。視覚に基づくジェスチャー認識は、ハンズフリー遠隔操作の1つの方法として検討されてきたが、その性能は、隠蔽、照明のバリエーション、乱雑な背景の下で劣化し、現実世界の操作に応用性を制限する。これらの制約を克服するため,Apple Watchの慣性データ(加速度計,ジャイロスコープ,方位計)を両手首に組み込んだ多モードジェスチャー認識フレームワークを提案する。我々は,ログ類似度(LLR)に基づく後期融合戦略を設計し,認識性能の向上だけでなく,モダリティ特異的な寄与の定量化による解釈性も提供する。本研究を支援するために,航空機のマーシャリング信号にインスパイアされた20種類のジェスチャーのデータセットを導入し,同期RGBビデオ,IMU,静電容量センサデータを含む。実験により,我々のフレームワークは,計算コスト,モデルサイズ,トレーニング時間を大幅に削減しつつ,最先端のビジョンベースラインに匹敵する性能を実現し,リアルタイムロボット制御に適していることが示された。そこで我々は,ジェスチャー駆動型移動ロボットとドローン遠隔操作のための堅牢かつ解釈可能なソリューションとして,センサベースのマルチモーダル融合の可能性を強調した。

関連論文リスト

Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization [0.8839687029212673]
公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-18T08:44:22Z)
End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection [10.217810309422232]
マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
論文参考訳（メタデータ） (2025-10-31T16:12:02Z)
OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文参考訳（メタデータ） (2025-10-28T13:22:39Z)
A Vision-Based Shared-Control Teleoperation Scheme for Controlling the Robotic Arm of a Four-Legged Robot [0.9699673328328621]
本研究は,視覚に基づくポーズ推定パイプラインを活用することで,直感的な遠隔操作を提案する。このシステムはこれらの手首の動きをロボットアームのコマンドにマッピングし、ロボットの腕をリアルタイムで制御する。軌道プランナは、障害物とロボットアーム自体との衝突を検出し防止することにより、安全な遠隔操作を保証する。
論文参考訳（メタデータ） (2025-08-20T18:31:57Z)
Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。 N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文参考訳（メタデータ） (2025-07-30T09:48:34Z)
DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics [2.625826951636656]
ロボット工学に特化して設計された新しいアプローチを導入し,最大30mの距離で動的ジェスチャー認識を実現する。提案手法では,DADAブロックと時空間グラフモジュールを効果的に組み合わせ,距離対応ゲスチャネットワーク(DiG-Net)を提案する。かなりの距離からジェスチャーを効果的に解釈することにより、DiG-Netは在宅医療、産業安全、遠隔支援シナリオにおける補助ロボットのユーザビリティを著しく向上させる。
論文参考訳（メタデータ） (2025-05-30T16:47:44Z)
Radar-Based Recognition of Static Hand Gestures in American Sign Language [17.021656590925005]
本研究では,先進レーダ線トレーシングシミュレータによる合成データの有効性について検討した。シミュレータは直感的な材料モデルを採用し、データ多様性を導入するように調整することができる。 NNを合成データで専用にトレーニングしているにもかかわらず、実際の測定データでテストを行うと、有望な性能を示す。
論文参考訳（メタデータ） (2024-02-20T08:19:30Z)
Agile gesture recognition for capacitive sensing devices: adapting on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文参考訳（メタデータ） (2023-05-12T17:24:02Z)
Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文参考訳（メタデータ） (2022-02-15T17:38:30Z)
Driving-Signal Aware Full-Body Avatars [49.89791440532946]
そこで本研究では,駆動信号を意識したフルボディアバターを構築するための学習ベース手法を提案する。我々のモデルは条件付き変分オートエンコーダであり、不完全な駆動信号でアニメーションできる。仮想テレプレゼンスのためのフルボディアニメーションの課題に対して,本手法の有効性を実証する。
論文参考訳（メタデータ） (2021-05-21T16:22:38Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。