論文の概要: GazeDETR: Gaze Detection using Disentangled Head and Gaze Representations
- arxiv url: http://arxiv.org/abs/2508.12966v1
- Date: Mon, 18 Aug 2025 14:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.379008
- Title: GazeDETR: Gaze Detection using Disentangled Head and Gaze Representations
- Title(参考訳): GazeDETR: 歪んだ頭と視線表現を用いた視線検出
- Authors: Ryan Anthony Jalova de Belen, Gelareh Mohammadi, Arcot Sowmya,
- Abstract要約: 本稿では,2つの不整合デコーダを持つ新しいエンドツーエンドアーキテクチャであるGazeDETRを提案する。
提案したアーキテクチャは,GazeFollow, VideoAttentionTarget, ChildPlay の各データセットの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 14.82916312780764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze communication plays a crucial role in daily social interactions. Quantifying this behavior can help in human-computer interaction and digital phenotyping. While end-to-end models exist for gaze target detection, they only utilize a single decoder to simultaneously localize human heads and predict their corresponding gaze (e.g., 2D points or heatmap) in a scene. This multitask learning approach generates a unified and entangled representation for human head localization and gaze location prediction. Herein, we propose GazeDETR, a novel end-to-end architecture with two disentangled decoders that individually learn unique representations and effectively utilize coherent attentive fields for each subtask. More specifically, we demonstrate that its human head predictor utilizes local information, while its gaze decoder incorporates both local and global information. Our proposed architecture achieves state-of-the-art results on the GazeFollow, VideoAttentionTarget and ChildPlay datasets. It outperforms existing end-to-end models with a notable margin.
- Abstract(参考訳): ゲイズコミュニケーションは日々の社会的相互作用において重要な役割を担っている。
この振る舞いの定量化は、人間とコンピュータの相互作用とデジタル表現型化に役立ちます。
視線目標検出のためのエンドツーエンドモデルが存在するが、人間の頭部を同時にローカライズし、シーン内の対応する視線(例えば、2Dポイントやヒートマップ)を予測するために、単一のデコーダのみを使用する。
このマルチタスク学習手法は、人間の頭部の局所化と視線位置予測のための統一的で絡み合った表現を生成する。
本稿では,異なる表現を個別に学習し,各サブタスクに対してコヒーレントな注意領域を効果的に活用する,2つの不整合デコーダを備えた新しいエンドツーエンドアーキテクチャであるGazeDETRを提案する。
具体的には、人間の頭部予測器がローカル情報を利用するのに対し、視線デコーダはローカル情報とグローバル情報の両方を組み込んでいることを実証する。
提案したアーキテクチャは,GazeFollow, VideoAttentionTarget, ChildPlay の各データセットの最先端結果を実現する。
既存のエンド・ツー・エンドのモデルよりも優れたマージンを誇っている。
関連論文リスト
- Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses [11.545286742778977]
まず、様々な人・物・人・人のインタラクション活動における眼・体の協調に関する包括的分析を報告する。
次に、畳み込みニューラルネットワークを用いて、頭部と全身のポーズから特徴を抽出する眼球運動調整モデルPose2Gazeを紹介する。
論文 参考訳(メタデータ) (2023-12-19T10:55:46Z) - RAZE: Region Guided Self-Supervised Gaze Representation Learning [5.919214040221055]
RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-04T06:23:49Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。