論文の概要: Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach
- arxiv url: http://arxiv.org/abs/2412.00309v2
- Date: Tue, 04 Feb 2025 03:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:45.890133
- Title: Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach
- Title(参考訳): 視線追従のピクセルレベル予測に向けて:ベンチマークとアプローチ
- Authors: Feiyang Liu, Dan Guo, Jingyuan Xu, Zihao He, Shengeng Tang, Kun Li, Meng Wang,
- Abstract要約: 本稿ではGazeSegという新しい視線目標予測手法を提案する。
人物の空間的視野を案内情報として完全に活用し、徐々に粗い視線目標のセグメンテーションと認識プロセスへと導くことができる。
本手法は、視線目標セグメンテーションにおける0.325のDiceと、71.7%のトップ5認識を実現する。
- 参考スコア(独自算出の注目度): 27.84672974344777
- License:
- Abstract: Following the gaze of other people and analyzing the target they are looking at can help us understand what they are thinking, and doing, and predict the actions that may follow. Existing methods for gaze following struggle to perform well in natural scenes with diverse objects, and focus on gaze points rather than objects, making it difficult to deliver clear semantics and accurate scope of the targets. To address this shortcoming, we propose a novel gaze target prediction solution named GazeSeg, that can fully utilize the spatial visual field of the person as guiding information and lead to a progressively coarse-to-fine gaze target segmentation and recognition process. Specifically, a prompt-based visual foundation model serves as the encoder, working in conjunction with three distinct decoding modules (e.g. FoV perception, heatmap generation, and segmentation) to form the framework for gaze target prediction. Then, with the head bounding box performed as an initial prompt, GazeSeg obtains the FoV map, heatmap, and segmentation map progressively, leading to a unified framework for multiple tasks (e.g. direction estimation, gaze target segmentation, and recognition). In particular, to facilitate this research, we construct and release a new dataset, comprising 72k images with pixel-level annotations and 270 categories of gaze targets, built upon the GazeFollow dataset. The quantitative evaluation shows that our approach achieves the Dice of 0.325 in gaze target segmentation and 71.7% top-5 recognition. Meanwhile, our approach also outperforms previous state-of-the-art methods, achieving 0.953 in AUC on the gaze-following task. The dataset and code will be released.
- Abstract(参考訳): 他の人を見つめて、彼らが探しているターゲットを分析することは、彼らが何を考えているのかを理解し、何をしているかを理解し、次に進むかもしれない行動を予測するのに役立ちます。
様々な物体を持つ自然のシーンにおいて、視線がうまく機能し、対象よりも視線ポイントに焦点を合わせるのに苦労した既存の視線追跡手法は、対象の明確な意味論と正確なスコープを提供するのを困難にしている。
この欠点に対処するため,ガゼセグという新しい視線目標予測手法を提案する。これは人物の空間的視野を案内情報として完全に活用し,徐々に粗い視線目標のセグメンテーションと認識のプロセスへと導く。
具体的には、プロンプトベースの視覚基盤モデルがエンコーダとして機能し、3つの異なるデコードモジュール(例えば、FoV認識、ヒートマップ生成、セグメンテーション)と連携して、ターゲット予測を視認するためのフレームワークを形成する。
そして、初期プロンプトとしてヘッドバウンディングボックスを実行すると、GazeSegはFoVマップ、ヒートマップ、セグメンテーションマップを段階的に取得し、複数のタスク(例えば、方向推定、視線目標セグメンテーション、認識)のための統一されたフレームワークに繋がる。
特に、この研究を促進するために、GazFollowデータセット上に構築された、ピクセルレベルのアノテーションと270の視線ターゲットを含む72kの画像からなる新しいデータセットを構築し、リリースする。
定量的評価の結果,視線目標セグメンテーションにおいて0.325のDiceと71.7%のTop-5認識が得られることがわかった。
一方,本手法は従来の最先端手法よりも優れており,視線追従作業においてAUCで0.953を達成している。
データセットとコードがリリースされる。
関連論文リスト
- Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - Object-aware Gaze Target Detection [14.587595325977583]
本稿では,シーン内の物体を自動的に検出し,頭部と視線・視線・視線を関連づけるトランスフォーマーアーキテクチャを提案する。
本手法は、視線目標検出のための全測定値の最先端結果と、視線対象物の分類と局所化のための平均精度を11-13%改善する。
論文 参考訳(メタデータ) (2023-07-18T22:04:41Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - GaTector: A Unified Framework for Gaze Object Prediction [11.456242421204298]
我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に、重なり合う領域を共有できない場合でも、ボックス間の差を明らかにすることのできる、新しいwUoCメトリックを提案する。
論文 参考訳(メタデータ) (2021-12-07T07:50:03Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。