論文の概要: End-to-End Human-Gaze-Target Detection with Transformers
- arxiv url: http://arxiv.org/abs/2203.10433v1
- Date: Sun, 20 Mar 2022 02:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:54:23.712496
- Title: End-to-End Human-Gaze-Target Detection with Transformers
- Title(参考訳): 変圧器を用いたエンド・ツー・エンドヒューマン・ゲイズ・ターゲット検出
- Authors: Danyang Tu and Xiongkuo Min and Huiyu Duan and Guodong Guo and
Guangtao Zhai and Wei Shen
- Abstract要約: 本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
- 参考スコア(独自算出の注目度): 57.00864538284686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an effective and efficient method for
Human-Gaze-Target (HGT) detection, i.e., gaze following. Current approaches
decouple the HGT detection task into separate branches of salient object
detection and human gaze prediction, employing a two-stage framework where
human head locations must first be detected and then be fed into the next gaze
target prediction sub-network. In contrast, we redefine the HGT detection task
as detecting human head locations and their gaze targets, simultaneously. By
this way, our method, named Human-Gaze-Target detection TRansformer or HGTTR,
streamlines the HGT detection pipeline by eliminating all other additional
components. HGTTR reasons about the relations of salient objects and human gaze
from the global image context. Moreover, unlike existing two-stage methods that
require human head locations as input and can predict only one human's gaze
target at a time, HGTTR can directly predict the locations of all people and
their gaze targets at one time in an end-to-end manner. The effectiveness and
robustness of our proposed method are verified with extensive experiments on
the two standard benchmark datasets, GazeFollowing and VideoAttentionTarget.
Without bells and whistles, HGTTR outperforms existing state-of-the-art methods
by large margins (6.4 mAP gain on GazeFollowing and 10.3 mAP gain on
VideoAttentionTarget) with a much simpler architecture.
- Abstract(参考訳): 本稿では,HGT(Human-Gaze-Target)検出のための効果的かつ効率的な手法を提案する。
現在のアプローチでは、hgt検出タスクを、人間の頭部の位置を最初に検出し、次に次の視線目標予測サブネットワークに供給する2段階のフレームワークを使用して、サルエント物体検出と人間の視線予測の別々のブランチに分離する。
対照的に、HGT検出タスクを人頭の位置と視線目標を同時に検出するものとして再定義する。
このようにして、HGTTR(Human-Gaze-Target Detection TRansformer)と呼ばれる手法は、HGT検出パイプラインを合理化して、他の全ての追加コンポーネントを除去する。
hgttrは、敬礼対象と人間の視線の関係を世界的イメージの文脈から考える。
さらに、人間の頭の位置を入力として要求する既存の2段階の手法とは異なり、HGTTRは1度に1人の人間の視線目標のみを予測できるため、すべての人の視線目標の位置を直接エンドツーエンドで予測することができる。
提案手法の有効性とロバスト性は,2つの標準ベンチマークデータセットである gazefollowing と videoattentiontarget の広範な実験により検証された。
ベルやホイッスルがなければ、HGTTRは既存の最先端の手法よりはるかに優れている(GazeFollowingでは6.4 mAP、VideoAttentionTargetでは10.3 mAP)。
関連論文リスト
- GazeHTA: End-to-end Gaze Target Detection with Head-Target Association [12.38704128536528]
本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。
既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。
本稿では、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。
論文 参考訳(メタデータ) (2024-04-16T16:51:27Z) - Exploring Hyperspectral Anomaly Detection with Human Vision: A Small
Target Aware Detector [20.845503528474328]
ハイパースペクトル異常検出(HAD)は、背景と異なるスペクトル特徴を持つ画素点の局在化を目的としている。
既存のHAD法は、背景スペクトルと異常スペクトルを客観的に検出し、識別することを目的としている。
本稿では,人間の視覚知覚下でのハイパースペクトル画像(HSI)の特徴を解析する。
本研究では,人間の視覚的知覚に近づいたHSI特徴を捉えるために,サリエンシマップを導入した小型目標認識検出器(STAD)を提案する。
論文 参考訳(メタデータ) (2024-01-02T08:28:38Z) - Joint Gaze-Location and Gaze-Object Detection [62.69261709635086]
現在、フレームガウン位置検出(GL-D)とガウンオブジェクト検出(GO-D)は2つの異なるタスクである。
本稿では,検出後の視線を合理化するために,検出後の下線Gazeを短縮したGTRを提案する。
GTRはGazeFollowingで12.1mAP、GL-DでVideoAttentionTargetで18.2mAP、GO-Dで19mAP向上を達成した。
論文 参考訳(メタデータ) (2023-08-26T12:12:24Z) - Object-aware Gaze Target Detection [14.587595325977583]
本稿では,シーン内の物体を自動的に検出し,頭部と視線・視線・視線を関連づけるトランスフォーマーアーキテクチャを提案する。
本手法は、視線目標検出のための全測定値の最先端結果と、視線対象物の分類と局所化のための平均精度を11-13%改善する。
論文 参考訳(メタデータ) (2023-07-18T22:04:41Z) - MGTR: End-to-End Mutual Gaze Detection with Transformer [1.0312968200748118]
本稿では,Mutual Gaze TRansformer あるいは MGTR と呼ばれる新しい1段階の相互視線検出フレームワークを提案する。
MGTRは、相互視線インスタンスのトリプルを設計することにより、人間の頭の境界ボックスを検知し、グローバル画像情報に基づいて相互視線関係を同時に推測することができる。
2つの相互視線データセットによる実験結果から,本手法は性能を損なうことなく,相互視線検出を高速化できることが示された。
論文 参考訳(メタデータ) (2022-09-22T11:26:22Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - An Adversarial Human Pose Estimation Network Injected with Graph
Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。
ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文 参考訳(メタデータ) (2021-03-29T12:07:08Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。