論文の概要: MGTR: End-to-End Mutual Gaze Detection with Transformer
- arxiv url: http://arxiv.org/abs/2209.10930v1
- Date: Thu, 22 Sep 2022 11:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 13:32:39.186775
- Title: MGTR: End-to-End Mutual Gaze Detection with Transformer
- Title(参考訳): MGTR: Transformer を用いた相互注視検出
- Authors: Hang Guo, Zhengxi Hu, Jingtai Liu
- Abstract要約: 本稿では,Mutual Gaze TRansformer あるいは MGTR と呼ばれる新しい1段階の相互視線検出フレームワークを提案する。
MGTRは、相互視線インスタンスのトリプルを設計することにより、人間の頭の境界ボックスを検知し、グローバル画像情報に基づいて相互視線関係を同時に推測することができる。
2つの相互視線データセットによる実験結果から,本手法は性能を損なうことなく,相互視線検出を高速化できることが示された。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People's looking at each other or mutual gaze is ubiquitous in our daily
interactions, and detecting mutual gaze is of great significance for
understanding human social scenes. Current mutual gaze detection methods focus
on two-stage methods, whose inference speed is limited by the two-stage
pipeline and the performance in the second stage is affected by the first one.
In this paper, we propose a novel one-stage mutual gaze detection framework
called Mutual Gaze TRansformer or MGTR to perform mutual gaze detection in an
end-to-end manner. By designing mutual gaze instance triples, MGTR can detect
each human head bounding box and simultaneously infer mutual gaze relationship
based on global image information, which streamlines the whole process with
simplicity. Experimental results on two mutual gaze datasets show that our
method is able to accelerate mutual gaze detection process without losing
performance. Ablation study shows that different components of MGTR can capture
different levels of semantic information in images. Code is available at
https://github.com/Gmbition/MGTR
- Abstract(参考訳): 人間同士の視線や相互視線は、日々の対話において至るところで見られ、相互視線を検出することは、人間の社会的場面を理解する上で非常に重要である。
現在の相互視線検出法は,2段階のパイプラインによって推論速度が制限され,第2段階の性能が第1段階の影響を受ける2段階の手法に重点を置いている。
本稿では,Mutual Gaze TRansformer (MGTR) と呼ばれる新しい一段階の相互視線検出フレームワークを提案し,エンドツーエンドで相互視線検出を行う。
MGTRは、相互の視線インスタンストリプルを設計することにより、人間の頭の境界ボックスを検知し、グローバル画像情報に基づいて相互の視線関係を同時に推論し、プロセス全体をシンプルに合理化する。
2つの相互視線データセットによる実験結果から,本手法は性能を損なうことなく相互視線検出を高速化できることが示された。
アブレーション研究は、MGTRの異なるコンポーネントが画像内の異なるレベルの意味情報をキャプチャできることを示している。
コードはhttps://github.com/Gmbition/MGTRで入手できる。
関連論文リスト
- Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation [10.682719521609743]
2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
論文 参考訳(メタデータ) (2024-09-02T02:51:40Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Joint Gaze-Location and Gaze-Object Detection [62.69261709635086]
現在、フレームガウン位置検出(GL-D)とガウンオブジェクト検出(GO-D)は2つの異なるタスクである。
本稿では,検出後の視線を合理化するために,検出後の下線Gazeを短縮したGTRを提案する。
GTRはGazeFollowingで12.1mAP、GL-DでVideoAttentionTargetで18.2mAP、GO-Dで19mAP向上を達成した。
論文 参考訳(メタデータ) (2023-08-26T12:12:24Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - Boosting Image-based Mutual Gaze Detection using Pseudo 3D Gaze [19.10872208787867]
相互視線検出は、人間の相互作用を理解する上で重要な役割を果たす。
本稿では,訓練期間中に補助的な3D視線推定タスクを用いて,性能向上のための簡易かつ効果的な手法を提案する。
相互の視線ラベルから推定される擬似3次元視線ラベルを用いて、3次元視線推定枝を訓練することにより、追加の表示コストなしで性能向上を実現する。
論文 参考訳(メタデータ) (2020-10-15T15:01:41Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。