論文の概要: GazeHTA: End-to-end Gaze Target Detection with Head-Target Association
- arxiv url: http://arxiv.org/abs/2404.10718v1
- Date: Tue, 16 Apr 2024 16:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:05:12.888569
- Title: GazeHTA: End-to-end Gaze Target Detection with Head-Target Association
- Title(参考訳): GazeHTA:ヘッド・ターゲット・アソシエーションによるエンド・ツー・エンドの目標検出
- Authors: Zhi-Yi Lin, Jouh Yeong Chew, Jan van Gemert, Xucong Zhang,
- Abstract要約: 本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。
既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。
本稿では、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。
- 参考スコア(独自算出の注目度): 12.38704128536528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an end-to-end approach for gaze target detection: predicting a head-target connection between individuals and the target image regions they are looking at. Most of the existing methods use independent components such as off-the-shelf head detectors or have problems in establishing associations between heads and gaze targets. In contrast, we investigate an end-to-end multi-person Gaze target detection framework with Heads and Targets Association (GazeHTA), which predicts multiple head-target instances based solely on input scene image. GazeHTA addresses challenges in gaze target detection by (1) leveraging a pre-trained diffusion model to extract scene features for rich semantic understanding, (2) re-injecting a head feature to enhance the head priors for improved head understanding, and (3) learning a connection map as the explicit visual associations between heads and gaze targets. Our extensive experimental results demonstrate that GazeHTA outperforms state-of-the-art gaze target detection methods and two adapted diffusion-based baselines on two standard datasets.
- Abstract(参考訳): 本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。
既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。
対照的に、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。
GazeHTAは,(1)事前学習した拡散モデルを用いてシーンの特徴を抽出し,豊かなセマンティック理解を実現すること,(2)頭部特徴を再注入して頭部理解を改善すること,(3)頭部と視線目標の明確な視覚的関連性として接続マップを学習することによる視線目標検出の課題に対処する。
実験の結果,GazeHTAは2つの標準データセットに対して,最先端の視線目標検出法と2つの適応拡散ベースラインより優れていた。
関連論文リスト
- Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities [25.049754180292034]
我々は、視線信号の解析を通して、自我中心ビデオにおける教師なし誤り検出の課題に対処する。
眼球運動が被写体操作活動に密接に従うという観察に基づいて,視線信号が誤検出をどの程度支援できるかを評価する。
予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。
論文 参考訳(メタデータ) (2024-06-12T16:29:45Z) - UnionDet: Union-Level Detector Towards Real-Time Human-Object
Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。
ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文 参考訳(メタデータ) (2023-12-19T23:34:43Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Object-aware Gaze Target Detection [14.587595325977583]
本稿では,シーン内の物体を自動的に検出し,頭部と視線・視線・視線を関連づけるトランスフォーマーアーキテクチャを提案する。
本手法は、視線目標検出のための全測定値の最先端結果と、視線対象物の分類と局所化のための平均精度を11-13%改善する。
論文 参考訳(メタデータ) (2023-07-18T22:04:41Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Onfocus Detection: Identifying Individual-Camera Eye Contact from
Unconstrained Images [81.64699115587167]
Onfocus Detectionは、カメラが捉えた個人の焦点がカメラにあるかどうかを特定することを目的としている。
OnFocus Detection In the Wild (OFDIW) と呼ばれる大規模なオンフォーカス検出データセットを構築しました。
本研究では,視線干渉推論ネットワーク (ECIIN) を用いた眼球深度検出モデルを提案する。
論文 参考訳(メタデータ) (2021-03-29T03:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。