論文の概要: Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection
- arxiv url: http://arxiv.org/abs/2206.03061v1
- Date: Tue, 7 Jun 2022 07:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 04:04:29.402624
- Title: Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection
- Title(参考訳): 物体間相互作用検出のための空間解析と動的時間プーリングネットワーク
- Authors: Hongsheng Li, Guangming Zhu, Wu Zhen, Lan Ni, Peiyi Shen, Liang Zhang,
Ning Wang, Cong Hua
- Abstract要約: 本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 30.896749712316222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The key of Human-Object Interaction(HOI) recognition is to infer the
relationship between human and objects. Recently, the image's Human-Object
Interaction(HOI) detection has made significant progress. However, there is
still room for improvement in video HOI detection performance. Existing
one-stage methods use well-designed end-to-end networks to detect a video
segment and directly predict an interaction.
It makes the model learning and further optimization of the network more
complex. This paper introduces the Spatial Parsing and Dynamic Temporal Pooling
(SPDTP) network, which takes the entire video as a spatio-temporal graph with
human and object nodes as input. Unlike existing methods, our proposed network
predicts the difference between interactive and non-interactive pairs through
explicit spatial parsing, and then performs interaction recognition. Moreover,
we propose a learnable and differentiable Dynamic Temporal Module(DTM) to
emphasize the keyframes of the video and suppress the redundant frame.
Furthermore, the experimental results show that SPDTP can pay more attention to
active human-object pairs and valid keyframes. Overall, we achieve
state-of-the-art performance on CAD-120 dataset and Something-Else dataset.
- Abstract(参考訳): 人間-物体相互作用(HOI)認識の鍵は、人間と物体の関係を推測することである。
近年,画像のHuman-Object Interaction(HOI)検出は大きな進歩を遂げている。
しかし,ビデオHOI検出性能は依然として改善の余地がある。
既存のワンステージ手法では、よく設計されたエンドツーエンドネットワークを使用してビデオセグメントを検出し、直接対話を予測する。
これにより、モデル学習とネットワークのさらなる最適化がより複雑になる。
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
既存の手法とは異なり,提案手法は空間解析によって対話的対と非対話的対の差を予測し,対話認識を行う。
さらに,映像のキーフレームを強調し,冗長フレームを抑制するために,学習可能で微分可能な動的テンポラリモジュール(dtm)を提案する。
さらに,実験結果から,SPDTPはアクティブな人-物対や有効なキーフレームにより多くの注意を払うことができることが示された。
CAD-120データセットとSomes-Elseデータセットの最先端性能を実現する。
関連論文リスト
- Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - RR-Net: Injecting Interactive Semantics in Human-Object Interaction
Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。
まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。
上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。
RR-Net)
論文 参考訳(メタデータ) (2021-04-30T14:03:10Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。