論文の概要: GazeHTA: End-to-end Gaze Target Detection with Head-Target Association
- arxiv url: http://arxiv.org/abs/2404.10718v1
- Date: Tue, 16 Apr 2024 16:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:05:12.888569
- Title: GazeHTA: End-to-end Gaze Target Detection with Head-Target Association
- Title(参考訳): GazeHTA:ヘッド・ターゲット・アソシエーションによるエンド・ツー・エンドの目標検出
- Authors: Zhi-Yi Lin, Jouh Yeong Chew, Jan van Gemert, Xucong Zhang,
- Abstract要約: 本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。
既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。
本稿では、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。
- 参考スコア(独自算出の注目度): 12.38704128536528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an end-to-end approach for gaze target detection: predicting a head-target connection between individuals and the target image regions they are looking at. Most of the existing methods use independent components such as off-the-shelf head detectors or have problems in establishing associations between heads and gaze targets. In contrast, we investigate an end-to-end multi-person Gaze target detection framework with Heads and Targets Association (GazeHTA), which predicts multiple head-target instances based solely on input scene image. GazeHTA addresses challenges in gaze target detection by (1) leveraging a pre-trained diffusion model to extract scene features for rich semantic understanding, (2) re-injecting a head feature to enhance the head priors for improved head understanding, and (3) learning a connection map as the explicit visual associations between heads and gaze targets. Our extensive experimental results demonstrate that GazeHTA outperforms state-of-the-art gaze target detection methods and two adapted diffusion-based baselines on two standard datasets.
- Abstract(参考訳): 本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。
既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。
対照的に、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。
GazeHTAは,(1)事前学習した拡散モデルを用いてシーンの特徴を抽出し,豊かなセマンティック理解を実現すること,(2)頭部特徴を再注入して頭部理解を改善すること,(3)頭部と視線目標の明確な視覚的関連性として接続マップを学習することによる視線目標検出の課題に対処する。
実験の結果,GazeHTAは2つの標準データセットに対して,最先端の視線目標検出法と2つの適応拡散ベースラインより優れていた。
関連論文リスト
- Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Towards Pixel-Level Prediction for Gaze Following: Benchmark and Approach [27.84672974344777]
本稿ではGazeSegという新しい視線目標予測手法を提案する。
人物の空間的視野を案内情報として完全に活用し、徐々に粗い視線目標のセグメンテーションと認識プロセスへと導くことができる。
本手法は、視線目標セグメンテーションにおける0.325のDiceと、71.7%のトップ5認識を実現する。
論文 参考訳(メタデータ) (2024-11-30T01:27:48Z) - A Review of Human-Object Interaction Detection [6.1941885271010175]
ヒトと物体の相互作用(HOI)の検出は、高レベルの視覚的理解において重要な役割を果たす。
本稿では,画像に基づくHOI検出における最近の研究を体系的に要約し,考察する。
論文 参考訳(メタデータ) (2024-08-20T08:32:39Z) - UnionDet: Union-Level Detector Towards Real-Time Human-Object
Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。
ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文 参考訳(メタデータ) (2023-12-19T23:34:43Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Onfocus Detection: Identifying Individual-Camera Eye Contact from
Unconstrained Images [81.64699115587167]
Onfocus Detectionは、カメラが捉えた個人の焦点がカメラにあるかどうかを特定することを目的としている。
OnFocus Detection In the Wild (OFDIW) と呼ばれる大規模なオンフォーカス検出データセットを構築しました。
本研究では,視線干渉推論ネットワーク (ECIIN) を用いた眼球深度検出モデルを提案する。
論文 参考訳(メタデータ) (2021-03-29T03:29:09Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。