論文の概要: Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization
- arxiv url: http://arxiv.org/abs/2512.17958v1
- Date: Thu, 18 Dec 2025 08:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.125877
- Title: Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization
- Title(参考訳): RGB-based Pose と Emotion Cues を用いたクロスカメラモデル一般化によるリアルタイムヒューマンロボットインタラクションインテント検出
- Authors: Farida Mohsen, Ali Safa,
- Abstract要約: 公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。
モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8839687029212673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Service robots in public spaces require real-time understanding of human behavioral intentions for natural interaction. We present a practical multimodal framework for frame-accurate human-robot interaction intent detection that fuses camera-invariant 2D skeletal pose and facial emotion features extracted from monocular RGB video. Unlike prior methods requiring RGB-D sensors or GPU acceleration, our approach resource-constrained embedded hardware (Raspberry Pi 5, CPU-only). To address the severe class imbalance in natural human-robot interaction datasets, we introduce a novel approach to synthesize temporally coherent pose-emotion-label sequences for data re-balancing called MINT-RVAE (Multimodal Recurrent Variational Autoencoder for Intent Sequence Generation). Comprehensive offline evaluations under cross-subject and cross-scene protocols demonstrate strong generalization performance, achieving frame- and sequence-level AUROC of 0.95. Crucially, we validate real-world generalization through cross-camera evaluation on the MIRA robot head, which employs a different onboard RGB sensor and operates in uncontrolled environments not represented in the training data. Despite this domain shift, the deployed system achieves 91% accuracy and 100% recall across 32 live interaction trials. The close correspondence between offline and deployed performance confirms the cross-sensor and cross-environment robustness of the proposed multimodal approach, highlighting its suitability for ubiquitous multimedia-enabled social robots.
- Abstract(参考訳): 公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。
モノクロRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合させる,フレーム精度の高いヒューマンロボットインタラクション意図検出のための実用的マルチモーダルフレームワークを提案する。
RGB-DセンサーやGPUアクセラレーションを必要とする従来の方法とは異なり、我々のアプローチはリソースに制約のある組み込みハードウェア(Raspberry Pi 5、CPUのみ)である。
MINT-RVAE(Multimodal Recurrent Variational Autoencoder for Intent Sequence Generation)と呼ばれるデータ再バランスのための時間的コヒーレントなポーズ-感情-ラベルシーケンスを合成するための新しいアプローチを導入する。
クロスオブジェクトおよびクロスシーンプロトコル下での総合的なオフライン評価は、フレームレベルおよびシーケンスレベルのAUROCを0.95で達成し、強力な一般化性能を示す。
重要なこととして,MIRAロボットヘッドのクロスカメラ評価により実世界の一般化を検証し,RGBセンサを別途搭載し,トレーニングデータに代表されない制御されていない環境で動作させる。
このドメインシフトにもかかわらず、デプロイされたシステムは、32回のライブインタラクショントライアルで91%の精度と100%のリコールを達成する。
オフラインとデプロイされたパフォーマンスの密接な対応は、提案したマルチモーダルアプローチのクロスセンサーとクロス環境ロバスト性を確認し、ユビキタスなマルチメディア対応ソーシャルロボットに適していることを強調する。
関連論文リスト
- MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data [0.8839687029212673]
本稿では,人間のインタラクション意図とフレームレベルの精度を予測する新しいパイプラインを提案する。
意図予測における重要な課題は、実世界のHRIデータセットに固有のクラス不均衡である。
我々の手法は最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-26T16:49:40Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - ARC-Calib: Autonomous Markerless Camera-to-Robot Calibration via Exploratory Robot Motions [15.004750210002152]
ARC-Calibはモデルベースのマーカーレスカメラ・ロボットキャリブレーションフレームワークである。
完全に自律的で、多様なロボットにまたがって一般化できる。
論文 参考訳(メタデータ) (2025-03-18T20:03:32Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip
Perception of Mobile Manipulation Robots [22.63980025871784]
提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。
統合されたデータは、ディープオートエンコーダを訓練して、通常の状態を示す多感覚データの潜在表現を構築するために使用される。
次に、トレーニングされたエンコーダの潜伏値と再構成された入力データの潜伏値との差によって測定された誤差スコアによって異常を識別することができる。
論文 参考訳(メタデータ) (2024-03-06T09:15:53Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Enhancing Multi-Robot Perception via Learned Data Association [37.866254392010454]
本稿では,マルチロボット協調認識問題,特に分散セマンティックセグメンテーションにおけるマルチビューインフィル問題に対処する。
本稿では,ロボット群において各エージェントにデプロイ可能なニューラルネットワークであるMulti-Agent Infilling Networkを提案する。
具体的には、各ロボットが視覚情報を局所的に符号化・復号し、ニューラルメカニズムにより、不確実性を認識し、文脈に基づく中間特徴の交換を可能にする。
論文 参考訳(メタデータ) (2021-07-01T22:45:26Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。