論文の概要: Initiation of Interaction Detection Framework using a Nonverbal Cue for Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2605.10087v1
- Date: Mon, 11 May 2026 07:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.590446
- Title: Initiation of Interaction Detection Framework using a Nonverbal Cue for Human-Robot Interaction
- Title(参考訳): 人-ロボットインタラクションのための非言語キューを用いたインタラクション検出フレームワークの構築
- Authors: Guhnoo Yun, Juhan Yoo, Kijung Kim, Dong Hwan Kim,
- Abstract要約: 本稿では,音声と視覚センサの融合に基づくインタラクション(IoI)検出フレームワークについて述べる。
提案するフレームワークでは、ロボットは独自のオーディオと視覚センサーを備えており、人間の検出と追跡を安定させるために外部視覚センサーを使用することができる。
- 参考スコア(独自算出の注目度): 15.228284553815593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes an initiation of interaction(IoI) detection framework without keywords for human-robot interaction(HRI) based on audio and vision sensor fusion in a domestic environment. In the proposed framework, the robot has its own audio and vision sensors, and can employ external vision sensor for stable human detection and tracking. When the user starts to speak while looking at the robot, the robot can localize his or her position by its sound source localization together with human tracking information. Then the robot can detect the IoI if it perceives the face of the speaker faces the robot. In case that the user does not speak directly, the robot can also detect the IoI if he or she looks at the robot for more than predefined periods of time. A state transition model for the proposed IoI detection framework is designed and verified by experiments with a mobile robot. In order to implement and associate our model in a robot architecture, all the components are implemented and integrated in the Robot Operating System(ROS) environment.
- Abstract(参考訳): 本稿では,家庭環境における音声と視覚センサの融合に基づくヒューマンロボットインタラクション(HRI)のキーワードを含まないインタラクション(IoI)検出フレームワークについて述べる。
提案するフレームワークでは、ロボットは独自のオーディオと視覚センサーを備えており、人間の検出と追跡を安定させるために外部視覚センサーを使用することができる。
ユーザがロボットを見ながら話し始めると、ロボットは人間の追跡情報とともに、音源の定位によって位置を特定できる。
そして、ロボットは、スピーカーの顔がロボットに面していると認識した場合、IoIを検出する。
ユーザーが直接話すことができない場合は、ロボットが事前に定義された時間以上ロボットを見ている場合、ロボットはIoIを検出することができる。
提案するIoI検出フレームワークの状態遷移モデルの設計と,移動ロボットを用いた実験により検証を行った。
ロボットアーキテクチャでモデルを実装・関連付けるため、すべてのコンポーネントをロボットオペレーティングシステム(ROS)環境に実装・統合する。
関連論文リスト
- Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery [64.82869118243723]
本稿では,脳波に基づく視覚・運動画像(VI/MI)とロボット制御を統合し,リアルタイム・意図駆動型把握・配置を実現するフレームワークを提案する。
このシステムは、BCI駆動のロボット工学の約束に感銘を受けて、オフラインで事前訓練されたデコーダをゼロショットで展開することによって、ニューラルネットワークを物理的制御でブリッジする。
論文 参考訳(メタデータ) (2026-03-03T17:41:42Z) - RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-28T07:51:02Z) - Project Report: Requirements for a Social Robot as an Information Provider in the Public Sector [0.0]
我々はヒューマノイド社会ロボットを公的な環境に統合するための応用シナリオを考案した。
我々は,対応するロボットアプリケーションを開発し,キール市議会とともにプロジェクトの初期試験と評価を行った。
このプロジェクトで得られた最も重要な洞察の1つは、自然言語処理能力を持つヒューマノイドロボットが、ユーザーにとってずっと好まれていることであった。
本稿では、ACT-Rの認知アーキテクチャとロボットとの連携を提案し、ACT-Rモデルをロボットアプリケーションとのインタラクションに利用して、人間とロボットの対話を認知的に処理し、強化する。
論文 参考訳(メタデータ) (2024-12-06T13:07:06Z) - Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt
interaction tasks [5.057755436092344]
人間のロボットのインタラクションは、人間の指示に従ってロボットを誘導する、エキサイティングなタスクだ。
HuBo-VLMは人間のロボットのインタラクションに関連する知覚課題に取り組むために提案されている。
論文 参考訳(メタデータ) (2023-08-24T03:47:27Z) - Action-conditioned Deep Visual Prediction with RoAM, a new Indoor Human
Motion Dataset for Autonomous Robots [1.7778609937758327]
ロボット自律運動(RoAM)ビデオデータセットについて紹介する。
このロボットは、ロボットのエゴビジョンから様々な人間の動きを記録する様々な屋内環境において、カスタムメイドのタートルボット3バーガーロボットで収集される。
データセットには、LiDARスキャンの同期記録や、静的で動く人間のエージェントの周りを移動する際にロボットが取るすべての制御アクションも含まれている。
論文 参考訳(メタデータ) (2023-06-28T00:58:44Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Body Gesture Recognition to Control a Social Robot [5.557794184787908]
本研究では,人間の身体を自然に利用してロボットと対話できるジェスチャー型言語を提案する。
ニューラルネットワークを用いた新しいジェスチャー検出モデルと、ネットワークをトレーニングするための身体ジェスチャーセットを実行する人間のカスタムデータセットを作成しました。
論文 参考訳(メタデータ) (2022-06-15T13:49:22Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - Joint Mind Modeling for Explanation Generation in Complex Human-Robot
Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。
ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。
その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-07-24T23:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。