論文の概要: HAGI++: Head-Assisted Gaze Imputation and Generation
- arxiv url: http://arxiv.org/abs/2511.02468v1
- Date: Tue, 04 Nov 2025 10:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.957952
- Title: HAGI++: Head-Assisted Gaze Imputation and Generation
- Title(参考訳): HAGI++: ヘッドアシストガゼインプットとジェネレーション
- Authors: Chuhan Jiao, Zhiming Hu, Andreas Bulling,
- Abstract要約: 本稿では,マルチモーダル拡散に基づく視線データ計算手法であるHAGI++を紹介する。
頭と眼の動きの関連性を利用するために、統合された頭向きセンサーを使用している。
本手法は,より完全で正確な視線記録を現実の環境で行う方法である。
- 参考スコア(独自算出の注目度): 19.626054627997778
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mobile eye tracking plays a vital role in capturing human visual attention across both real-world and extended reality (XR) environments, making it an essential tool for applications ranging from behavioural research to human-computer interaction. However, missing values due to blinks, pupil detection errors, or illumination changes pose significant challenges for further gaze data analysis. To address this challenge, we introduce HAGI++ - a multi-modal diffusion-based approach for gaze data imputation that, for the first time, uses the integrated head orientation sensors to exploit the inherent correlation between head and eye movements. HAGI++ employs a transformer-based diffusion model to learn cross-modal dependencies between eye and head representations and can be readily extended to incorporate additional body movements. Extensive evaluations on the large-scale Nymeria, Ego-Exo4D, and HOT3D datasets demonstrate that HAGI++ consistently outperforms conventional interpolation methods and deep learning-based time-series imputation baselines in gaze imputation. Furthermore, statistical analyses confirm that HAGI++ produces gaze velocity distributions that closely match actual human gaze behaviour, ensuring more realistic gaze imputations. Moreover, by incorporating wrist motion captured from commercial wearable devices, HAGI++ surpasses prior methods that rely on full-body motion capture in the extreme case of 100% missing gaze data (pure gaze generation). Our method paves the way for more complete and accurate eye gaze recordings in real-world settings and has significant potential for enhancing gaze-based analysis and interaction across various application domains.
- Abstract(参考訳): モバイルアイトラッキングは、現実世界と拡張現実(XR)環境の両方で人間の視覚的注意を捉える上で重要な役割を担っている。
しかし、点滅、瞳孔検出誤差、照明変化による欠落は、さらなる視線データ分析に重大な課題をもたらす。
この課題に対処するために、HAGI++ - 視線データ計算のためのマルチモーダル拡散に基づくアプローチを導入する。
HAGI++は、トランスフォーマーに基づく拡散モデルを用いて、眼と頭部の間の相互依存を学習し、容易に拡張して追加の身体運動を組み込むことができる。
大規模Nymeria, Ego-Exo4D, HOT3Dデータセットの大規模な評価は, HAGI++が従来の補間法や深層学習に基づく時系列計算のベースラインを一貫して上回っていることを示している。
さらに統計分析により、HAGI++は実際の人間の視線行動と密に一致し、より現実的な視線障害を確実にする視線速度分布を生成することが確認された。
さらに、商用ウェアラブルデバイスから取得した手首の動きを組み込むことによって、HAGI++は、100%の視線データ(純粋な視線生成)の極端な場合において、フルボディのモーションキャプチャに依存する従来の手法を超越する。
本手法は,実環境下でのより完全かつ正確な視線記録を実現する方法であり,様々なアプリケーション領域における視線に基づく解析と相互作用を向上する大きな可能性を秘めている。
関連論文リスト
- Eyes on Target: Gaze-Aware Object Detection in Egocentric Video [1.3320917259299652]
我々は、エゴセントリックビデオのための新しい奥行き認識および視線誘導オブジェクト検出フレームワークであるEyes on Targetを提案する。
提案手法は視覚変換器(ViT)の注意機構に視線由来の特徴を注入し,空間的特徴選択を人間に適応した領域へ効果的にバイアスする。
我々は,人間の視覚的注意が課題評価に重要であるエゴセントリック・シミュレーター・データセット上で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-03T05:21:58Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction [10.982807572404166]
本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。
提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。
提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses [11.545286742778977]
まず、様々な人・物・人・人のインタラクション活動における眼・体の協調に関する包括的分析を報告する。
次に、畳み込みニューラルネットワークを用いて、頭部と全身のポーズから特徴を抽出する眼球運動調整モデルPose2Gazeを紹介する。
論文 参考訳(メタデータ) (2023-12-19T10:55:46Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。