論文の概要: GazeTarget360: Towards Gaze Target Estimation in 360-Degree for Robot Perception
- arxiv url: http://arxiv.org/abs/2507.00253v1
- Date: Mon, 30 Jun 2025 20:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.833407
- Title: GazeTarget360: Towards Gaze Target Estimation in 360-Degree for Robot Perception
- Title(参考訳): GazeTarget360: ロボット知覚のための360度目標推定に向けて
- Authors: Zhuangzhuang Dai, Vincent Gbouna Zakka, Luis J. Manso, Chen Li,
- Abstract要約: 画像から360度視線目標推定の問題に対処するシステムを提案する。
GazeTarget360と名付けられたこのシステムは、アイコンタクト検出器、事前訓練された視覚エンコーダ、マルチスケール核融合デコーダの条件推論エンジンを統合している。
クロスバリデーションの結果から、GazeTarget360は、目に見えないシナリオにおいて、正確で信頼性の高い視線目標予測を生成できることが示されている。
- 参考スコア(独自算出の注目度): 3.312411881096304
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabling robots to understand human gaze target is a crucial step to allow capabilities in downstream tasks, for example, attention estimation and movement anticipation in real-world human-robot interactions. Prior works have addressed the in-frame target localization problem with data-driven approaches by carefully removing out-of-frame samples. Vision-based gaze estimation methods, such as OpenFace, do not effectively absorb background information in images and cannot predict gaze target in situations where subjects look away from the camera. In this work, we propose a system to address the problem of 360-degree gaze target estimation from an image in generalized visual scenes. The system, named GazeTarget360, integrates conditional inference engines of an eye-contact detector, a pre-trained vision encoder, and a multi-scale-fusion decoder. Cross validation results show that GazeTarget360 can produce accurate and reliable gaze target predictions in unseen scenarios. This makes a first-of-its-kind system to predict gaze targets from realistic camera footage which is highly efficient and deployable. Our source code is made publicly available at: https://github.com/zdai257/DisengageNet.
- Abstract(参考訳): 人間の視線目標を理解するためのロボットの開発は、例えば現実世界の人間とロボットの対話における注意推定や動きの予測といった下流タスクの能力を実現するための重要なステップである。
以前の作業では、フレーム外のサンプルを慎重に取り除き、データ駆動アプローチによるフレーム内ターゲットローカライゼーションの問題に対処していた。
OpenFaceのような視覚に基づく視線推定法は、画像の背景情報を効果的に吸収せず、被写体がカメラから遠ざかる状況では視線目標を予測できない。
本研究では,一般的な視覚シーンの画像から360度視線目標推定の問題に対処するシステムを提案する。
GazeTarget360と名付けられたこのシステムは、アイコンタクト検出器、事前訓練された視覚エンコーダ、マルチスケール核融合デコーダの条件推論エンジンを統合している。
クロスバリデーションの結果から、GazeTarget360は、目に見えないシナリオにおいて、正確で信頼性の高い視線目標予測を生成できることが示されている。
これにより、高効率で展開可能な現実的なカメラ映像から視線目標を予測することができる。
私たちのソースコードは、https://github.com/zdai257/DisengageNet.comで公開されています。
関連論文リスト
- Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders [33.26237143983192]
本研究では,視覚目標推定の問題に対処する。
凍結したDINOv2エンコーダの特徴を活用して視線目標推定を効率化する新しいトランスフォーマフレームワークであるGaze-LLEを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:30Z) - Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach [27.84672974344777]
本稿ではGazeSegという新しい視線目標予測手法を提案する。
人物の空間的視野を案内情報として完全に活用し、徐々に粗い視線目標のセグメンテーションと認識プロセスへと導くことができる。
本手法は、視線目標セグメンテーションにおける0.325のDiceと、71.7%のトップ5認識を実現する。
論文 参考訳(メタデータ) (2024-11-30T01:27:48Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - Object-aware Gaze Target Detection [14.587595325977583]
本稿では,シーン内の物体を自動的に検出し,頭部と視線・視線・視線を関連づけるトランスフォーマーアーキテクチャを提案する。
本手法は、視線目標検出のための全測定値の最先端結果と、視線対象物の分類と局所化のための平均精度を11-13%改善する。
論文 参考訳(メタデータ) (2023-07-18T22:04:41Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。