論文の概要: Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses
- arxiv url: http://arxiv.org/abs/2312.12042v2
- Date: Fri, 7 Jun 2024 09:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:27:03.013440
- Title: Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses
- Title(参考訳): Pose2Gaze:全眼球からの視線予測のための視線調整
- Authors: Zhiming Hu, Jiahui Xu, Syn Schmitt, Andreas Bulling,
- Abstract要約: まず、様々な人・物・人・人のインタラクション活動における眼・体の協調に関する包括的分析を報告する。
次に、畳み込みニューラルネットワークを用いて、頭部と全身のポーズから特徴を抽出する眼球運動調整モデルPose2Gazeを紹介する。
- 参考スコア(独自算出の注目度): 11.545286742778977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human eye gaze plays a significant role in many virtual and augmented reality (VR/AR) applications, such as gaze-contingent rendering, gaze-based interaction, or eye-based activity recognition. However, prior works on gaze analysis and prediction have only explored eye-head coordination and were limited to human-object interactions. We first report a comprehensive analysis of eye-body coordination in various human-object and human-human interaction activities based on four public datasets collected in real-world (MoGaze), VR (ADT), as well as AR (GIMO and EgoBody) environments. We show that in human-object interactions, e.g. pick and place, eye gaze exhibits strong correlations with full-body motion while in human-human interactions, e.g. chat and teach, a person's gaze direction is correlated with the body orientation towards the interaction partner. Informed by these analyses we then present Pose2Gaze, a novel eye-body coordination model that uses a convolutional neural network and a spatio-temporal graph convolutional neural network to extract features from head direction and full-body poses, respectively, and then uses a convolutional neural network to predict eye gaze. We compare our method with state-of-the-art methods that predict eye gaze only from head movements and show that Pose2Gaze outperforms these baselines with an average improvement of 24.0% on MoGaze, 10.1% on ADT, 21.3% on GIMO, and 28.6% on EgoBody in mean angular error, respectively. We also show that our method significantly outperforms prior methods in the sample downstream task of eye-based activity recognition. These results underline the significant information content available in eye-body coordination during daily activities and open up a new direction for gaze prediction.
- Abstract(参考訳): 人間の目視は多くのバーチャルおよび拡張現実(VR/AR)アプリケーションにおいて重要な役割を果たす。
しかし、視線分析と予測に関する先行研究は、視線調整のみを探求し、人間と物体の相互作用に限られていた。
まず、実世界(MoGaze)、VR(ADT)、AR(GIMO)およびEgoBody(EgoBody)環境において収集された4つの公開データセットに基づいて、様々な人・物・人間・対話活動における眼球運動の総合的コーディネーション分析を行った。
人・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・関係との関連を考察した。
これらの分析から得られたPose2Gazeは、畳み込みニューラルネットワークと時空間グラフ畳み込みニューラルネットワークを用いて、それぞれ頭部と全身のポーズから特徴を抽出し、畳み込みニューラルネットワークを用いて視線を予測する新しいアイボディコーディネートモデルである。
本手法を頭の動きのみから視線を推定する最先端手法と比較し,Pose2GazeがMoGaze平均24.0%,ADT平均10.1%,GIMO平均21.3%,EgoBody平均28.6%でこれらのベースラインを上回ったことを示す。
また,本手法は,視線に基づく活動認識の下流課題において,従来の手法よりも有意に優れていた。
これらの結果は、日常活動中に眼球運動調整に利用可能な重要な情報内容を明らかにし、視線予測のための新しい方向を開く。
関連論文リスト
- GazeMotion: Gaze-guided Human Motion Forecasting [10.982807572404166]
本稿では、過去の人間のポーズ情報と人間の目視情報を組み合わせた、人間の動き予測の新しい手法であるGazeMotionを紹介する。
人間の目と身体の動きが密接に調整されていることを示す行動科学のエビデンスにインスパイアされたGazeMotionは、まず過去の視線から将来の視線を予測し、その後予測された将来の視線と過去のポーズを視線のグラフに融合し、最後に身体の動きを予測するための残差グラフ畳み込みネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-14T21:38:00Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction [11.997928273335129]
既存の方法は、観測された過去の動きからのみ、身体の動きを合成している。
本稿では、人間の動きを生成する新しい視線誘導聴覚モデルであるGazeMoDiffを紹介する。
私たちの研究は、視線誘導による人間の動き予測に向けての第一歩を踏み出します。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - MIDAS: Deep learning human action intention prediction from natural eye
movement patterns [6.557082555839739]
自然視のみに基づく対象操作タスクに対する人間の意図をデコードするための、完全にデータ駆動型アプローチを提案する。
以上の結果から,自然な視線と相対位置から純粋に人間の動きの意図を911.9%の精度で復号できることが示唆された。
論文 参考訳(メタデータ) (2022-01-22T21:52:42Z) - Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。
モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文 参考訳(メタデータ) (2021-04-17T04:52:46Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Non-contact Real time Eye Gaze Mapping System Based on Deep
Convolutional Neural Network [0.0]
実環境に適用可能な非接触視線マッピングシステムを提案する。
本稿では、GIST Gazeマッピングデータセットを紹介し、GIST Gazeマッピングを学習し、評価するために作成されたGIST Gazeマッピングデータセットについて紹介する。
論文 参考訳(メタデータ) (2020-09-10T02:37:37Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。