論文の概要: Humanizing Robot Gaze Shifts: A Framework for Natural Gaze Shifts in Humanoid Robots
- arxiv url: http://arxiv.org/abs/2602.21983v1
- Date: Wed, 25 Feb 2026 15:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.71109
- Title: Humanizing Robot Gaze Shifts: A Framework for Natural Gaze Shifts in Humanoid Robots
- Title(参考訳): 人間化ロボットの視線シフト:ヒューマノイドロボットの自然な視線シフトのためのフレームワーク
- Authors: Jingchao Wei, Jingkai Qin, Yuxiao Cao, Jingcheng Huang, Xiangrui Zeng, Min Li, Zhouping Yin,
- Abstract要約: 本稿では,認知的注意機構と生体模倣運動生成を統合したロボット・ゲイズ・シフト(Robo Gaze-Shift, RGS)フレームワークを提案する。
まず、RGSは視覚言語モデル(VLM)ベースの視線推論パイプラインを使用して、コンテキストに適した視線ターゲットを推論する。
第二に、RGSはアイヘッド座標のガウンシフト運動生成のための条件付きベクトル量子可変オートエンコーダ(VQ-VAE)モデルを導入している。
- 参考スコア(独自算出の注目度): 9.261748165703024
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Leveraging auditory and visual feedback for attention reorientation is essential for natural gaze shifts in social interaction. However, enabling humanoid robots to perform natural and context-appropriate gaze shifts in unconstrained human--robot interaction (HRI) remains challenging, as it requires the coupling of cognitive attention mechanisms and biomimetic motion generation. In this work, we propose the Robot Gaze-Shift (RGS) framework, which integrates these two components into a unified pipeline. First, RGS employs a vision--language model (VLM)-based gaze reasoning pipeline to infer context-appropriate gaze targets from multimodal interaction cues, ensuring consistency with human gaze-orienting regularities. Second, RGS introduces a conditional Vector Quantized-Variational Autoencoder (VQ-VAE) model for eye--head coordinated gaze-shift motion generation, producing diverse and human-like gaze-shift behaviors. Experiments validate that RGS effectively replicates human-like target selection and generates realistic, diverse gaze-shift motions.
- Abstract(参考訳): ソーシャルインタラクションにおける自然な視線シフトには,聴覚と視覚的フィードバックの活用が不可欠である。
しかし,ヒト型ロボットが非拘束のヒト-ロボット間相互作用(HRI)において,自然かつコンテキストに適した視線シフトを行うためには,認知的注意機構と生体模倣運動生成の結合が必要であるため,依然として困難である。
本研究では,これら2つのコンポーネントを統合パイプラインに統合するロボット・ゲイズ・シフト(RGS)フレームワークを提案する。
第一に、RGSは視覚言語モデル(VLM)ベースの視線推論パイプラインを使用して、コンテキストに適した視線ターゲットをマルチモーダルインタラクションキューから推論し、人間の視線指向の正規性との整合性を確保する。
第二に、RGSは目頭協調型視線シフト運動生成のための条件付きベクトル量子可変オートエンコーダ(VQ-VAE)モデルを導入し、多種多様な人間の視線シフト行動を生成する。
実験は、RGSが人間のような標的選択を効果的に再現し、現実的で多様な視線シフト運動を生成することを検証する。
関連論文リスト
- Gaze-Aware Task Progression Detection Framework for Human-Robot Interaction Using RGB Cameras [0.0]
人間-ロボットインタラクション(HRI)では、人間の視線を検出することで、ロボットがユーザーの注意と意図を解釈するのに役立つ。
統合ディスプレイインタフェースを介して情報を伝達する際のタスク進行を検出するためのキャリブレーションフリーフレームワークを提案する。
その結果,タスク完了検出精度は77.6%であった。
論文 参考訳(メタデータ) (2026-03-16T22:03:02Z) - Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery [64.82869118243723]
本稿では,脳波に基づく視覚・運動画像(VI/MI)とロボット制御を統合し,リアルタイム・意図駆動型把握・配置を実現するフレームワークを提案する。
このシステムは、BCI駆動のロボット工学の約束に感銘を受けて、オフラインで事前訓練されたデコーダをゼロショットで展開することによって、ニューラルネットワークを物理的制御でブリッジする。
論文 参考訳(メタデータ) (2026-03-03T17:41:42Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - FABG : End-to-end Imitation Learning for Embodied Affective Human-Robot Interaction [3.8177867835232004]
本稿では,人間-ロボットインタラクションのためのエンドツーエンドの模倣学習システムであるFABG(Facial Affective Behavior Generation)を提案する。
我々は,立体空間を操作者が知覚できる没入型バーチャルリアリティ(VR)デモシステムを開発した。
実世界の25自由度ヒューマノイドロボットにFABGをデプロイし,その効果を4つの基本的なインタラクションタスクで検証する。
論文 参考訳(メタデータ) (2025-03-03T09:58:04Z) - EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - ReGenNet: Towards Human Action-Reaction Synthesis [87.57721371471536]
我々は、人間と人間の相互作用の非対称、動的、同期、および詳細な性質を分析する。
本研究では,人間の行動に条件付けされた人間の反応を生成するための,最初のマルチセットヒト行動反応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-18T15:33:06Z) - Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction [9.806227900768926]
本稿では,共有ロボット表現空間における社会的動き予測のモデル化を提案する。
ECHOは上記の共有空間で活動し、社会的シナリオで遭遇したエージェントの将来の動きを予測する。
我々は,多対人動作予測タスクにおけるモデルの評価を行い,最先端の性能を大きなマージンで獲得する。
論文 参考訳(メタデータ) (2024-02-07T11:37:14Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。