論文の概要: Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2104.05269v1
- Date: Mon, 12 Apr 2021 08:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:07:51.232471
- Title: Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection
- Title(参考訳): Glance and Gaze: 一段階の人間と物体の相互作用検出のための行動認識点の推測
- Authors: Xubin Zhong, Xian Qu, Changxing Ding and Dacheng Tao
- Abstract要約: Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
- 参考スコア(独自算出の注目度): 81.32280287658486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern human-object interaction (HOI) detection approaches can be divided
into one-stage methods and twostage ones. One-stage models are more efficient
due to their straightforward architectures, but the two-stage models are still
advantageous in accuracy. Existing one-stage models usually begin by detecting
predefined interaction areas or points, and then attend to these areas only for
interaction prediction; therefore, they lack reasoning steps that dynamically
search for discriminative cues. In this paper, we propose a novel one-stage
method, namely Glance and Gaze Network (GGNet), which adaptively models a set
of actionaware points (ActPoints) via glance and gaze steps. The glance step
quickly determines whether each pixel in the feature maps is an interaction
point. The gaze step leverages feature maps produced by the glance step to
adaptively infer ActPoints around each pixel in a progressive manner. Features
of the refined ActPoints are aggregated for interaction prediction. Moreover,
we design an actionaware approach that effectively matches each detected
interaction with its associated human-object pair, along with a novel hard
negative attentive loss to improve the optimization of GGNet. All the above
operations are conducted simultaneously and efficiently for all pixels in the
feature maps. Finally, GGNet outperforms state-of-the-art methods by
significant margins on both V-COCO and HICODET benchmarks. Code of GGNet is
available at https: //github.com/SherlockHolmes221/GGNet.
- Abstract(参考訳): 現代の人-物間相互作用(HOI)検出手法は、一段階法と二段階法に分けられる。
1段階のモデルは単純なアーキテクチャのため効率が良いが、2段階のモデルは精度が優れている。
既存のワンステージモデルは通常、事前に定義された相互作用領域や点を検出して始まり、相互作用予測のためにのみこれらの領域に参画する。
本稿では,視覚と視線のステップによって行動認識点(行動ポイント)の集合を適応的にモデル化する,新しい一段階の手法であるeyes and gaze network(ggnet)を提案する。
視線ステップは、特徴写像の各画素が相互作用点であるか否かを素早く決定する。
視線ステップは、視線ステップによって生成された特徴マップを利用して、各ピクセルの周囲のActPointを段階的に推論する。
ActPointの特徴は相互作用予測のために集約される。
さらに,GGNetの最適化を改善するために,検出された各対と関連する対象対との相互作用を効果的に一致させる行動認識手法を考案した。
上記の操作はすべて、特徴マップの全画素に対して同時に効率的に実行される。
最後に、GGNet は V-COCO と HICODET のベンチマークにおいて、最先端の手法よりもかなり優れている。
GGNetのコードはhttps: //github.com/SherlockHolmes221/GGNetで入手できる。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。