Fugu-MT 論文翻訳(概要): Human-Like Gaze Behavior in Social Robots: A Deep Learning Approach Integrating Human and Non-Human Stimuli

論文の概要: Human-Like Gaze Behavior in Social Robots: A Deep Learning Approach Integrating Human and Non-Human Stimuli

arxiv url: http://arxiv.org/abs/2602.11648v1
Date: Thu, 12 Feb 2026 07:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.387219
Title: Human-Like Gaze Behavior in Social Robots: A Deep Learning Approach Integrating Human and Non-Human Stimuli
Title（参考訳）: 社会ロボットにおけるヒューマンライクな視線行動:人間と非人間刺激を統合した深層学習アプローチ
Authors: Faezeh Vahedi, Morteza Memari, Ramtin Tabatabaei, Alireza Taheri,
Abstract要約: 本研究では,様々な社会的状況におけるロボットと人間の視線行動の類似性を高めることを目的とする。この研究の重要な革新は、非ヒト刺激に対する視線反応の研究である。被験者41名の視線方向データを仮想現実(VR)メガネで収集した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Nonverbal behaviors, particularly gaze direction, play a crucial role in enhancing effective communication in social interactions. As social robots increasingly participate in these interactions, they must adapt their gaze based on human activities and remain receptive to all cues, whether human-generated or not, to ensure seamless and effective communication. This study aims to increase the similarity between robot and human gaze behavior across various social situations, including both human and non-human stimuli (e.g., conversations, pointing, door openings, and object drops). A key innovation in this study, is the investigation of gaze responses to non-human stimuli, a critical yet underexplored area in prior research. These scenarios, were simulated in the Unity software as a 3D animation and a 360-degree real-world video. Data on gaze directions from 41 participants were collected via virtual reality (VR) glasses. Preprocessed data, trained two neural networks-LSTM and Transformer-to build predictive models based on individuals' gaze patterns. In the animated scenario, the LSTM and Transformer models achieved prediction accuracies of 67.6% and 70.4%, respectively; In the real-world scenario, the LSTM and Transformer models achieved accuracies of 72% and 71.6%, respectively. Despite the gaze pattern differences among individuals, our models outperform existing approaches in accuracy while uniquely considering non-human stimuli, offering a significant advantage over previous literature. Furthermore, deployed on the NAO robot, the system was evaluated by 275 participants via a comprehensive questionnaire, with results demonstrating high satisfaction during interactions. This work advances social robotics by enabling robots to dynamically mimic human gaze behavior in complex social contexts.
Abstract（参考訳）: 非言語行動、特に視線方向は、社会的相互作用における効果的なコミュニケーションを強化する上で重要な役割を果たす。社会ロボットはこれらの相互作用にますます参加し、人間の活動に基づいて視線を順応し、人間が生成するかどうかに関わらず全ての手がかりを受容し、シームレスで効果的なコミュニケーションを確保する必要がある。本研究の目的は、人間と非人間の両方の刺激(会話、ポインティング、ドアの開口、物滴など)を含む、さまざまな社会的状況におけるロボットと人間の視線行動の類似性を高めることである。この研究における重要な革新は、先行研究において重要で未発見の領域である非ヒト刺激に対する視線反応の調査である。これらのシナリオはUnityソフトウェアで3Dアニメーションと360度リアルタイムビデオとしてシミュレートされた。被験者41名の視線方向データを仮想現実(VR)メガネで収集した。事前処理されたデータ、LSTMとTransformerという2つのニューラルネットワークをトレーニングして、個人の視線パターンに基づいた予測モデルを構築する。アニメーションシナリオでは、LSTMモデルとTransformerモデルはそれぞれ67.6%と70.4%の予測精度を達成し、現実シナリオではLSTMモデルとTransformerモデルは71.6%の予測精度を達成した。個人間での視線パターンの違いにもかかわらず、我々のモデルは、人間以外の刺激を独特に考慮しながら、既存のアプローチよりも精度が優れており、過去の文献よりも大きな優位性をもたらしている。さらに, NAOロボットに装着し, 275名の被験者を対象に, 総合的な質問紙調査を行い, 対話時の満足度を高く評価した。この研究は、複雑な社会的文脈における人間の視線行動をロボットが動的に模倣できるようにすることで、社会ロボティクスを進歩させる。

関連論文リスト

Empirical Study of Gaze Behavior in Children and Young Adults Using Deep Neural Networks and Robot Implementation: A Comparative Analysis of Social Situations [0.0]
我々は、特定の社会的状況下での子どもや大人の視線行動を模倣するために、ディープニューラルネットワークモデルを訓練する。実生活環境下での直ロボットに配置することで,本モデルの実用性を評価する。
論文参考訳（メタデータ） (2026-02-12T07:01:04Z)
MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。 MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文参考訳（メタデータ） (2025-12-17T12:59:41Z)
Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文参考訳（メタデータ） (2025-08-04T06:35:48Z)
FABG : End-to-end Imitation Learning for Embodied Affective Human-Robot Interaction [3.8177867835232004]
本稿では,人間-ロボットインタラクションのためのエンドツーエンドの模倣学習システムであるFABG(Facial Affective Behavior Generation)を提案する。我々は,立体空間を操作者が知覚できる没入型バーチャルリアリティ(VR)デモシステムを開発した。実世界の25自由度ヒューマノイドロボットにFABGをデプロイし,その効果を4つの基本的なインタラクションタスクで検証する。
論文参考訳（メタデータ） (2025-03-03T09:58:04Z)
Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction [9.806227900768926]
本稿では,共有ロボット表現空間における社会的動き予測のモデル化を提案する。 ECHOは上記の共有空間で活動し、社会的シナリオで遭遇したエージェントの将来の動きを予測する。我々は,多対人動作予測タスクにおけるモデルの評価を行い,最先端の性能を大きなマージンで獲得する。
論文参考訳（メタデータ） (2024-02-07T11:37:14Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots [119.55240471433302]
Habitat 3.0は、家庭環境における協調ロボットタスクを研究するためのシミュレーションプラットフォームである。複雑な変形可能な体と外観と運動の多様性をモデル化する際の課題に対処する。 Human-in-the-loopインフラストラクチャは、マウス/キーボードまたはVRインターフェースを介してシミュレーションされたロボットとの実際のヒューマンインタラクションを可能にする。
論文参考訳（メタデータ） (2023-10-19T17:29:17Z)
Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文参考訳（メタデータ） (2022-05-02T09:21:39Z)
A trained humanoid robot can perform human-like crossmodal social attention conflict resolution [13.059378830912912]
本研究は,iCubロボットが人間のような社会的注意反応を表現できるようにするために,視線トリガーによる音声・視覚のクロスモーダル統合という神経ロボティックなパラダイムを採用した。マスクは、アバターの目以外のすべての顔の視覚的手がかりをカバーするために使用された。アバターの視線は、不一致状態よりも、聴覚・視覚のコングルーエント状態において、より優れた人間のパフォーマンスで、横断的な社会的な注意を喚起する可能性があることを観察した。
論文参考訳（メタデータ） (2021-11-02T21:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。