論文の概要: Joint Gaze-Location and Gaze-Object Detection
- arxiv url: http://arxiv.org/abs/2308.13857v1
- Date: Sat, 26 Aug 2023 12:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:38:37.269008
- Title: Joint Gaze-Location and Gaze-Object Detection
- Title(参考訳): ジョイント・アイズ・ロケーションとアイズ・オブジェクト検出
- Authors: Danyang Tu, Wei Shen, Wei Sun, Xiongkuo Min, Guangtao Zhai
- Abstract要約: 現在、フレームガウン位置検出(GL-D)とガウンオブジェクト検出(GO-D)は2つの異なるタスクである。
本稿では,検出後の視線を合理化するために,検出後の下線Gazeを短縮したGTRを提案する。
GTRはGazeFollowingで12.1mAP、GL-DでVideoAttentionTargetで18.2mAP、GO-Dで19mAP向上を達成した。
- 参考スコア(独自算出の注目度): 62.69261709635086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an efficient and effective method for joint gaze location
detection (GL-D) and gaze object detection (GO-D), \emph{i.e.}, gaze following
detection. Current approaches frame GL-D and GO-D as two separate tasks,
employing a multi-stage framework where human head crops must first be detected
and then be fed into a subsequent GL-D sub-network, which is further followed
by an additional object detector for GO-D. In contrast, we reframe the gaze
following detection task as detecting human head locations and their gaze
followings simultaneously, aiming at jointly detect human gaze location and
gaze object in a unified and single-stage pipeline. To this end, we propose
GTR, short for \underline{G}aze following detection \underline{TR}ansformer,
streamlining the gaze following detection pipeline by eliminating all
additional components, leading to the first unified paradigm that unites GL-D
and GO-D in a fully end-to-end manner. GTR enables an iterative interaction
between holistic semantics and human head features through a hierarchical
structure, inferring the relations of salient objects and human gaze from the
global image context and resulting in an impressive accuracy. Concretely, GTR
achieves a 12.1 mAP gain ($\mathbf{25.1}\%$) on GazeFollowing and a 18.2 mAP
gain ($\mathbf{43.3\%}$) on VideoAttentionTarget for GL-D, as well as a 19 mAP
improvement ($\mathbf{45.2\%}$) on GOO-Real for GO-D. Meanwhile, unlike
existing systems detecting gaze following sequentially due to the need for a
human head as input, GTR has the flexibility to comprehend any number of
people's gaze followings simultaneously, resulting in high efficiency.
Specifically, GTR introduces over a $\times 9$ improvement in FPS and the
relative gap becomes more pronounced as the human number grows.
- Abstract(参考訳): 本稿では,目視位置検出 (gl-d) と目視物体検出 (go-d), \emph{i.e.}, 目視追従検出の効率的かつ効果的な手法を提案する。
現在のアプローチでは、GL-DとGO-Dを2つの別々のタスクとして用いており、まず人間の頭作物を検知し、次にGL-Dサブネットワークに供給し、さらにGO-Dのための追加のオブジェクト検出器が続く。
対照的に,視線追従検出タスクを,人間の頭部位置と視線追従を同時に検出し,統一的で単段のパイプラインで人間の視線位置と視線オブジェクトを協調的に検出することを目的とした。
そこで本研究では,検出後のGTRを短縮したGTRを提案し,すべての追加コンポーネントを排除し,検出パイプラインの視線を合理化することで,GL-DとGO-Dを完全にエンドツーエンドに統一する最初の統一パラダイムを実現する。
gtrは、階層構造を通じて、全体意味論と人間の頭部特徴の反復的な相互作用を可能にし、グローバル画像コンテキストから突出した物体と人間の視線の関係を推論し、印象的な精度をもたらす。
具体的には、GTR は GazeFollowing の 12.1 mAP ゲイン (\mathbf{25.1}\%$) と VideoAttentionTarget の GL-D の 18.2 mAP ゲイン (\mathbf{43.3\%}$)、GO-D の GOO-Real の 19 mAP ゲイン (\mathbf{45.2\%}$) を達成している。
一方、人間の頭を入力として必要とするため、連続的に視線を検出する既存のシステムとは異なり、GTRは任意の人の視線追跡を同時に理解する柔軟性があり、高い効率をもたらす。
具体的には、GTRはFPSの9ドル以上の改善を導入し、人間数が増加するにつれて相対的なギャップがより顕著になる。
関連論文リスト
- Global Confidence Degree Based Graph Neural Network for Financial Fraud Detection [3.730504020733928]
本稿では,GCD(Global Confidence Degree)の概念と計算公式を示し,GCDベースのGNN(GCD-GNN)を設計する。
各ノードに対して正確なGCDを得るために,多層パーセプトロンを用いて特徴を変換し,新しい特徴とそれに対応するプロトタイプを用いて不要な情報を除去する。
2つの公開データセットの実験では、GCD-GNNが最先端のベースラインより優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-24T14:55:37Z) - Exploring Sparsity in Graph Transformers [67.48149404841925]
グラフ変換器(GT)は、様々なグラフ関連タスクにおいて印象的な結果を得た。
しかし、GTsの膨大な計算コストは、特に資源制約のある環境でのデプロイメントと応用を妨げる。
我々は、GTの計算複雑性を低減するのに役立つ、包括的な textbfGraph textbfTransformer textbfSParsification (GTSP) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T06:21:44Z) - Object-aware Gaze Target Detection [14.587595325977583]
本稿では,シーン内の物体を自動的に検出し,頭部と視線・視線・視線を関連づけるトランスフォーマーアーキテクチャを提案する。
本手法は、視線目標検出のための全測定値の最先端結果と、視線対象物の分類と局所化のための平均精度を11-13%改善する。
論文 参考訳(メタデータ) (2023-07-18T22:04:41Z) - MGTR: End-to-End Mutual Gaze Detection with Transformer [1.0312968200748118]
本稿では,Mutual Gaze TRansformer あるいは MGTR と呼ばれる新しい1段階の相互視線検出フレームワークを提案する。
MGTRは、相互視線インスタンスのトリプルを設計することにより、人間の頭の境界ボックスを検知し、グローバル画像情報に基づいて相互視線関係を同時に推測することができる。
2つの相互視線データセットによる実験結果から,本手法は性能を損なうことなく,相互視線検出を高速化できることが示された。
論文 参考訳(メタデータ) (2022-09-22T11:26:22Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - An Adversarial Human Pose Estimation Network Injected with Graph
Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。
ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文 参考訳(メタデータ) (2021-03-29T12:07:08Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。