論文の概要: HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination
- arxiv url: http://arxiv.org/abs/2504.19828v1
- Date: Mon, 28 Apr 2025 14:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.466084
- Title: HOIGaze: Gaze Estimation During Hand-Object Interactions in Extended Reality Exploiting Eye-Hand-Head Coordination
- Title(参考訳): HOIGAze:目と頭とを協調した拡張現実視における手と物体の相互作用による視線推定
- Authors: Zhiming Hu, Daniel Haeufle, Syn Schmitt, Andreas Bulling,
- Abstract要約: HOIGAzeは、拡張現実(XR)における手物体相互作用(HOI)中の視線推定のための学習的アプローチ
眼、手、頭部の動きは、HOIにおいて密接に調整されており、この調整は、視線訓練に最も有用なサンプルを特定するために利用することができる。
HOT3DとAriaデジタルツイン(ADT)のデータセット上でHOIGazeを評価し,最先端の手法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 10.982807572404166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HOIGaze - a novel learning-based approach for gaze estimation during hand-object interactions (HOI) in extended reality (XR). HOIGaze addresses the challenging HOI setting by building on one key insight: The eye, hand, and head movements are closely coordinated during HOIs and this coordination can be exploited to identify samples that are most useful for gaze estimator training - as such, effectively denoising the training data. This denoising approach is in stark contrast to previous gaze estimation methods that treated all training samples as equal. Specifically, we propose: 1) a novel hierarchical framework that first recognises the hand currently visually attended to and then estimates gaze direction based on the attended hand; 2) a new gaze estimator that uses cross-modal Transformers to fuse head and hand-object features extracted using a convolutional neural network and a spatio-temporal graph convolutional network; and 3) a novel eye-head coordination loss that upgrades training samples belonging to the coordinated eye-head movements. We evaluate HOIGaze on the HOT3D and Aria digital twin (ADT) datasets and show that it significantly outperforms state-of-the-art methods, achieving an average improvement of 15.6% on HOT3D and 6.0% on ADT in mean angular error. To demonstrate the potential of our method, we further report significant performance improvements for the sample downstream task of eye-based activity recognition on ADT. Taken together, our results underline the significant information content available in eye-hand-head coordination and, as such, open up an exciting new direction for learning-based gaze estimation.
- Abstract(参考訳): 拡張現実(XR)における手-物間相互作用(HOI)における視線推定の新しい学習手法である HoIGaze を提案する。
眼、手、頭の動きは、HOIの間密に調整されており、この調整は、視線推定器のトレーニングに最も有用なサンプルを特定するために利用することができる。
この認知的アプローチは、すべてのトレーニングサンプルを同等に扱う以前の視線推定方法とは対照的である。
具体的には、
1) 現在目視されている手を認識し、その手に基づいて視線方向を推定する新しい階層的枠組み
2)畳み込みニューラルネットワークと時空間グラフ畳み込みネットワークを用いて抽出した頭部・手指の特徴を融合させるクロスモーダルトランスフォーマーを用いた新しい視線推定装置
3)協調眼球運動に属するトレーニングサンプルをアップグレードする新しいアイヘッド調整損失。
HOT3DとAriaデジタルツイン(ADT)のデータセット上でHOIGazeを評価し,HOT3Dでは平均15.6%,ADTでは平均6.0%向上した。
さらに,本手法の有効性を示すために,ADT上での視線に基づく活動認識の下流課題に対して,顕著な性能向上を報告した。
本研究の結果は,目と頭が協調する上で利用可能な重要な情報内容と,学習に基づく視線推定のためのエキサイティングな新たな方向を明らかにするものである。
関連論文リスト
- RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced
Few-Shot Learning in Remote Sensing [9.504503675097137]
我々は、バックボーンを事前訓練し、同時に特徴サンプルの変種を探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。
微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。
本稿では,2つの重要なリモートセンシングデータセットにおいて,この手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T03:59:19Z) - TMHOI: Translational Model for Human-Object Interaction Detection [18.804647133922195]
人-物間相互作用(HOI)を検出するための革新的なグラフベースアプローチを提案する。
本手法は,空間的知識と意味的知識を統合することで,HOIの感情表現を効果的に捉える。
我々のアプローチは、既存の最先端のグラフベースの手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-03-07T21:52:10Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze
Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。
マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文 参考訳(メタデータ) (2022-01-20T00:29:45Z) - Dynamic Graph Modeling of Simultaneous EEG and Eye-tracking Data for
Reading Task Identification [79.41619843969347]
我々は、脳波(EEG)と眼球運動(EM)データからヒトの読取意図を特定するための新しいアプローチAdaGTCNを提案する。
本稿では,AdaGTCN(Adaptive Graph Temporal Convolution Network)の手法として,Adaptive Graph Learning LayerとDeep Neighborhood Graph Convolution Layerを用いた。
このアプローチといくつかのベースラインを比較し、ZuCo 2.0データセットの6.29%の改善と広範なアブレーション実験を報告します。
論文 参考訳(メタデータ) (2021-02-21T18:19:49Z) - Boosting Image-based Mutual Gaze Detection using Pseudo 3D Gaze [19.10872208787867]
相互視線検出は、人間の相互作用を理解する上で重要な役割を果たす。
本稿では,訓練期間中に補助的な3D視線推定タスクを用いて,性能向上のための簡易かつ効果的な手法を提案する。
相互の視線ラベルから推定される擬似3次元視線ラベルを用いて、3次元視線推定枝を訓練することにより、追加の表示コストなしで性能向上を実現する。
論文 参考訳(メタデータ) (2020-10-15T15:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。