Fugu-MT 論文翻訳(概要): Gaze-Aware Task Progression Detection Framework for Human-Robot Interaction Using RGB Cameras

論文の概要: Gaze-Aware Task Progression Detection Framework for Human-Robot Interaction Using RGB Cameras

arxiv url: http://arxiv.org/abs/2603.15951v1
Date: Mon, 16 Mar 2026 22:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.884127
Title: Gaze-Aware Task Progression Detection Framework for Human-Robot Interaction Using RGB Cameras
Title（参考訳）: RGBカメラを用いた人間-ロボットインタラクションのための視線対応タスクプログレクション検出フレームワーク
Authors: Linlin Cheng, Koen Hindriks, Artem V. Belopolsky,
Abstract要約: 人間-ロボットインタラクション(HRI)では、人間の視線を検出することで、ロボットがユーザーの注意と意図を解釈するのに役立つ。統合ディスプレイインタフェースを介して情報を伝達する際のタスク進行を検出するためのキャリブレーションフリーフレームワークを提案する。その結果,タスク完了検出精度は77.6%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In human-robot interaction (HRI), detecting a human's gaze helps robots interpret user attention and intent. However, most gaze detection approaches rely on specialized eye-tracking hardware, limiting deployment in everyday settings. Appearance-based gaze estimation methods remove this dependency by using standard RGB cameras, but their practicality in HRI remains underexplored. We present a calibration-free framework for detecting task progression when information is conveyed via integrated display interfaces. The framework uses only the robot's built-in monocular RGB camera (640x480 resolution) and state-of-the-art gaze estimation to monitor attention patterns. It leverages natural behavior, where users shift focus from task interfaces to the robot's face to signal task completion, formalized through three Areas of Interest (AOI): tablet, robot face, and elsewhere. Systematic parameter optimization identifies configurations that balance detection accuracy and interaction latency. We validate our framework in a "First Day at Work" scenario, comparing it to button-based interaction. Results show a task completion detection accuracy of 77.6%. Compared to button-based interaction, the proposed system exhibits slightly higher response latency but preserves information retention and significantly improves comfort, social presence, and perceived naturalness. Notably, most participants reported that they did not consciously use eye movements to guide the interaction, underscoring the intuitive role of gaze as a communicative cue. This work demonstrates the feasibility of intuitive, low-cost, RGB-only gaze-based HRI for natural and engaging interactions.
Abstract（参考訳）: 人間-ロボットインタラクション(HRI)では、人間の視線を検出することで、ロボットがユーザーの注意と意図を解釈するのに役立つ。しかし、ほとんどの視線検出アプローチは、特別な視線追跡ハードウェアに依存しており、日常的な設定でのデプロイメントを制限している。外観に基づく視線推定手法は、標準RGBカメラを用いてこの依存を除去するが、HRIにおけるその実用性は未解明のままである。統合ディスプレイインタフェースを介して情報を伝達する際のタスク進行を検出するためのキャリブレーションフリーフレームワークを提案する。このフレームワークは、ロボットの内蔵の単眼RGBカメラ(640x480解像度)と最先端の視線推定のみを使用して、注意パターンを監視している。ユーザがタスクインターフェースからロボットの顔にフォーカスをシフトしてタスク完了をシグナルとして,タブレットやロボットの顔など3つのエリア(AOI)を通じて形式化した,自然な行動を活用する。システムパラメータ最適化は、検出精度と相互作用遅延のバランスをとる構成を特定する。のシナリオでフレームワークを検証し、ボタンベースのインタラクションと比較します。その結果,タスク完了検出精度は77.6%であった。ボタンベースのインタラクションと比較すると,応答遅延はわずかに高いが,情報保持を保ち,快適さ,社会的存在感,自然さを著しく改善する。特に、ほとんどの参加者は、意識的に眼球運動を使用して相互作用を誘導していないと報告し、コミュニケーションの手がかりとして視線を直感的に果たす役割を強調した。この研究は、自然と活発な相互作用に対する直感的で低コストでRGBのみの視線に基づくHRIの実現可能性を示している。

関連論文リスト

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。 2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T19:01:31Z)
Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization [0.8839687029212673]
公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-18T08:44:22Z)
MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data [0.8839687029212673]
本稿では,人間のインタラクション意図とフレームレベルの精度を予測する新しいパイプラインを提案する。意図予測における重要な課題は、実世界のHRIデータセットに固有のクラス不均衡である。我々の手法は最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-09-26T16:49:40Z)
Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。 N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文参考訳（メタデータ） (2025-07-30T09:48:34Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral Features [50.82725748981231]
エンゲージメント測定は、医療、教育、サービスに応用される。生理的特徴と行動的特徴の使用は可能であるが、従来の生理的測定の非現実性は接触センサーの必要性により生じる。コンタクトセンサの代替として, 教師なし光胸腺造影(胸腔鏡)の有用性を実証する。
論文参考訳（メタデータ） (2024-04-05T20:39:16Z)
Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction [2.240453048130742]
ジェスチャー認識の視覚的手法は, ユーザ・カメラ距離が7m以内で有効であることが示されている。本稿では,GViT (Graph Vision Transformer) と呼ばれる新しいURGRを提案する。種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。
論文参考訳（メタデータ） (2023-11-26T17:27:26Z)
Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文参考訳（メタデータ） (2023-03-10T16:27:37Z)
Attention-Oriented Action Recognition for Real-Time Human-Robot Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文参考訳（メタデータ） (2020-07-02T12:41:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。