論文の概要: Pose2Gaze: Generating Realistic Human Gaze Behaviour from Full-body
Poses using an Eye-body Coordination Model
- arxiv url: http://arxiv.org/abs/2312.12042v1
- Date: Tue, 19 Dec 2023 10:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:05:16.285062
- Title: Pose2Gaze: Generating Realistic Human Gaze Behaviour from Full-body
Poses using an Eye-body Coordination Model
- Title(参考訳): Pose2Gaze:眼球座標モデルを用いた全身電位からのリアルな人間の視線行動の生成
- Authors: Zhiming Hu and Jiahui Xu and Syn Schmitt and Andreas Bulling
- Abstract要約: 視線は頭部方向や全身運動と強く相関しており,身体運動と眼球運動の間には顕著な遅延がある。
次に、Pose2Gazeを紹介します。これは、まず、畳み込みニューラルネットワークと時間グラフ畳み込みニューラルネットワークを使用して、それぞれ方向とフルボディのポーズから特徴を抽出する、新しいアイボディコーディネートモデルです。
- 参考スコア(独自算出の注目度): 12.612396358741522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generating realistic body movements, e.g., for avatars in virtual
reality, is widely studied in computer vision and graphics, the generation of
eye movements that exhibit realistic coordination with the body remains
under-explored. We first report a comprehensive analysis of the coordination of
human eye and full-body movements during everyday activities based on data from
the MoGaze and GIMO datasets. We show that eye gaze has strong correlations
with head directions and also full-body motions and there exists a noticeable
time delay between body and eye movements. Inspired by the analyses, we then
present Pose2Gaze -- a novel eye-body coordination model that first uses a
convolutional neural network and a spatio-temporal graph convolutional neural
network to extract features from head directions and full-body poses
respectively and then applies a convolutional neural network to generate
realistic eye movements. We compare our method with state-of-the-art methods
that predict eye gaze only from head movements for three different generation
tasks and demonstrate that Pose2Gaze significantly outperforms these baselines
on both datasets with an average improvement of 26.4% and 21.6% in mean angular
error, respectively. Our findings underline the significant potential of
cross-modal human gaze behaviour analysis and modelling.
- Abstract(参考訳): 現実の身体の動き(例えば、バーチャルリアリティーにおけるアバター)は、コンピュータビジョンやグラフィックスで広く研究されているが、身体と現実的に協調する眼球運動の生成は未検討のままである。
まず,mogazeおよびgimoデータセットのデータをもとに,日常活動中の人間の眼球運動と全身運動の協調に関する包括的分析を行った。
その結果,目視は頭部方向と全身運動と強い相関があり,身体運動と眼球運動の間には明らかな時間遅延があることがわかった。
このモデルでは、まず畳み込みニューラルネットワークと時空間グラフ畳み込みニューラルネットワークを使用して、それぞれ頭部と全身のポーズから特徴を抽出し、その後、畳み込みニューラルネットワークを適用してリアルな目の動きを生成する。
提案手法を3つの異なる世代タスクの頭部の動きからのみ視線を予測できる最先端の手法と比較し,Pose2Gazeが両データセットにおいて平均26.4%,平均21.6%の精度でこれらのベースラインを大幅に上回ることを示した。
本研究は, 視線横断行動解析とモデリングの有意な可能性を示すものである。
関連論文リスト
- GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction [11.997928273335129]
既存の方法は、観測された過去の動きからのみ、身体の動きを合成している。
本稿では、人間の動きを生成する新しい視線誘導聴覚モデルであるGazeMoDiffを紹介する。
私たちの研究は、視線誘導による人間の動き予測に向けての第一歩を踏み出します。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - Modeling Human Eye Movements with Neural Networks in a Maze-Solving Task [2.092312847886424]
眼球運動の深部生成モデルを構築し,眼球運動と眼球運動の融合を図った。
人間の目の動きは、できるだけ効率的にタスクを実行するのではなく、迷路を横断する物体の内部シミュレーションを実行するように最適化されたモデルによって予測される。
論文 参考訳(メタデータ) (2022-12-20T15:48:48Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - Skeletal Human Action Recognition using Hybrid Attention based Graph
Convolutional Network [3.261599248682793]
相対的距離と相対的角度情報に基づいて局所的注意マップをグローバルに拡張する適応型空間的注意層を提案する。
我々は,頭部,手,足を結ぶ新しい初期グラフ隣接行列を設計し,行動認識精度の点で目に見える改善点を示す。
提案モデルは,日常生活における人間活動の分野における大規模かつ挑戦的な2つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-07-12T12:22:21Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - It's Written All Over Your Face: Full-Face Appearance-Based Gaze
Estimation [82.16380486281108]
顔の全体像のみを入力とする外観に基づく手法を提案する。
本手法は,特徴写像に空間重みを印加した畳み込みニューラルネットワークを用いて顔画像の符号化を行う。
本手法は2次元視線と3次元視線の両方で技量を有意に上回ることを示す。
論文 参考訳(メタデータ) (2016-11-27T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。