論文の概要: Developing Neural Network-Based Gaze Control Systems for Social Robots
- arxiv url: http://arxiv.org/abs/2602.10946v1
- Date: Wed, 11 Feb 2026 15:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.366387
- Title: Developing Neural Network-Based Gaze Control Systems for Social Robots
- Title(参考訳): 社会ロボットのためのニューラルネットワークによる視線制御システムの開発
- Authors: Ramtin Tabatabaei, Alireza Taheri,
- Abstract要約: 本研究では,様々な社会的状況下での人間の視線行動に対する経験的動作時間パターンを開発することを目的とする。
ディープラーニングモデル、特にLong Short-Term Memory(LSTM)とTransformerは、視線パターンの分析と予測に使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During multi-party interactions, gaze direction is a key indicator of interest and intent, making it essential for social robots to direct their attention appropriately. Understanding the social context is crucial for robots to engage effectively, predict human intentions, and navigate interactions smoothly. This study aims to develop an empirical motion-time pattern for human gaze behavior in various social situations (e.g., entering, leaving, waving, talking, and pointing) using deep neural networks based on participants' data. We created two video clips-one for a computer screen and another for a virtual reality headset-depicting different social scenarios. Data were collected from 30 participants: 15 using an eye-tracker and 15 using an Oculus Quest 1 headset. Deep learning models, specifically Long Short-Term Memory (LSTM) and Transformers, were used to analyze and predict gaze patterns. Our models achieved 60% accuracy in predicting gaze direction in a 2D animation and 65% accuracy in a 3D animation. Then, the best model was implemented onto the Nao robot; and 36 new participants evaluated its performance. The feedback indicated overall satisfaction, with those experienced in robotics rating the models more favorably.
- Abstract(参考訳): 多人数の対話において、視線方向は興味と意図の重要な指標であり、社会ロボットが適切な注意を向けることが不可欠である。
社会的文脈を理解することは、ロボットが効果的に関与し、人間の意図を予測し、対話を円滑にナビゲートする上で不可欠である。
本研究の目的は、参加者のデータに基づくディープニューラルネットワークを用いて、様々な社会的状況(例えば、侵入、離脱、手振り、発話、指差)における人間の視線行動のための経験的動作時間パターンを開発することである。
私たちは2つのビデオクリップを作成しました。1つはコンピュータ画面用、もう1つはバーチャルリアリティヘッドセット用です。
参加者は30名、アイトラッカーは15名、ヘッドセットはOculus Quest 1だった。
ディープラーニングモデル、特にLong Short-Term Memory(LSTM)とTransformerは、視線パターンの分析と予測に使用された。
また,2次元アニメーションでは視線方向の予測精度が60%,3次元アニメーションでは65%の精度が得られた。
その後、最高のモデルが直ロボットに実装され、36人の参加者がその性能を評価した。
フィードバックは全体的な満足度を示し、ロボット工学の経験者はモデルをより好意的に評価した。
関連論文リスト
- Human-Like Gaze Behavior in Social Robots: A Deep Learning Approach Integrating Human and Non-Human Stimuli [0.0]
本研究では,様々な社会的状況におけるロボットと人間の視線行動の類似性を高めることを目的とする。
この研究の重要な革新は、非ヒト刺激に対する視線反応の研究である。
被験者41名の視線方向データを仮想現実(VR)メガネで収集した。
論文 参考訳(メタデータ) (2026-02-12T07:01:17Z) - Empirical Study of Gaze Behavior in Children and Young Adults Using Deep Neural Networks and Robot Implementation: A Comparative Analysis of Social Situations [0.0]
我々は、特定の社会的状況下での子どもや大人の視線行動を模倣するために、ディープニューラルネットワークモデルを訓練する。
実生活環境下での直ロボットに配置することで,本モデルの実用性を評価する。
論文 参考訳(メタデータ) (2026-02-12T07:01:04Z) - Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset [52.22758311559]
本研究では,ユーザとスポット間のダイアドインタラクションにおける3次元ポーズ推定と予測のための新しいデータセットであるHARPERを紹介する。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
論文 参考訳(メタデータ) (2024-03-21T14:53:50Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Combining Vision and Tactile Sensation for Video Prediction [0.0]
本研究では,触覚フィードバックを映像予測モデルに組み込んだ物理的ロボットインタラクションの効果について検討する。
磁気ベースの触覚センサを用いて教師なし学習を行うロボットプッシュの2つの新しいデータセットを紹介した。
以上の結果から,触覚フィードバックを映像予測モデルに組み込むことにより,シーン予測精度が向上し,エージェントの身体的相互作用に対する認識が向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-21T18:02:15Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。