論文の概要: Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition
- arxiv url: http://arxiv.org/abs/2108.08633v1
- Date: Thu, 19 Aug 2021 11:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:19:41.294122
- Title: Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition
- Title(参考訳): 人間-対象間インタラクション認識のための時空間相互作用グラフ解析ネットワーク
- Authors: Ning Wang, Guangming Zhu, Liang Zhang, Peiyi Shen, Hongsheng Li, Cong
Hua
- Abstract要約: ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
- 参考スコア(独自算出の注目度): 55.7731053128204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a given video-based Human-Object Interaction scene, modeling the
spatio-temporal relationship between humans and objects are the important cue
to understand the contextual information presented in the video. With the
effective spatio-temporal relationship modeling, it is possible not only to
uncover contextual information in each frame but also to directly capture
inter-time dependencies. It is more critical to capture the position changes of
human and objects over the spatio-temporal dimension when their appearance
features may not show up significant changes over time. The full use of
appearance features, the spatial location and the semantic information are also
the key to improve the video-based Human-Object Interaction recognition
performance. In this paper, Spatio-Temporal Interaction Graph Parsing Networks
(STIGPN) are constructed, which encode the videos with a graph composed of
human and object nodes. These nodes are connected by two types of relations:
(i) spatial relations modeling the interactions between human and the
interacted objects within each frame. (ii) inter-time relations capturing the
long range dependencies between human and the interacted objects across frame.
With the graph, STIGPN learn spatio-temporal features directly from the whole
video-based Human-Object Interaction scenes. Multi-modal features and a
multi-stream fusion strategy are used to enhance the reasoning capability of
STIGPN. Two Human-Object Interaction video datasets, including CAD-120 and
Something-Else, are used to evaluate the proposed architectures, and the
state-of-the-art performance demonstrates the superiority of STIGPN.
- Abstract(参考訳): ビデオベースのヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時空間関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりとなる。
実効的な時空間関係モデリングでは,各フレームの文脈情報だけでなく,時間間の依存関係を直接把握することが可能である。
外観的特徴が時間とともに顕著な変化を起こさない場合、時空間上の人や物体の位置変化を捉えることがより重要である。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
本稿では,人間ノードと対象ノードからなるグラフを用いて映像を符号化した時空間相互作用グラフ解析ネットワーク(STIGPN)を構築した。
これらのノードは、2つのタイプの関係によって接続される: (i)各フレーム内の人間と相互作用対象の間の相互作用をモデル化する空間的関係。
(ii)フレーム間の人間と相互作用対象間の長距離依存性を捉える時間間関係。
このグラフでは、STIGPNはビデオベースのヒューマンオブジェクトインタラクションシーンから直接時空間の特徴を学習する。
マルチモーダル特徴とマルチストリーム融合戦略はSTIGPNの推論能力を高めるために用いられる。
CAD-120とSome-Elseを含む2つのヒューマン・オブジェクト・インタラクション・ビデオ・データセットを用いて提案したアーキテクチャを評価し,STIGPNの優位性を示す。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos [9.159660801125812]
ビデオベースのヒューマンオブジェクトインタラクション(HOI)認識は、人間とオブジェクトの間の複雑なダイナミクスを探索する。
本研究では,シーンフレームワークCATSに新たなエンドツーエンドカテゴリを提案する。
我々は,これらの拡張幾何学的視覚的特徴をノードとして構成し,人間とオブジェクトのカテゴリ間の関係を学習する。
論文 参考訳(メタデータ) (2024-07-01T02:42:55Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - A Skeleton-aware Graph Convolutional Network for Human-Object
Interaction Detection [14.900704382194013]
そこで我々は,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。
我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉えます。
このような幾何学的特徴と視覚的特徴と、人間と物体のペアから得られる空間的構成特徴を融合させる。
論文 参考訳(メタデータ) (2022-07-11T15:20:18Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Distillation of Human-Object Interaction Contexts for Action Recognition [0.0]
局所的・グローバル的文脈の相互作用を利用して人間とオブジェクトの関係を学習する。
空間と時間を通して人間と物体の相互作用を学習するGLIDN(Global-Local Interaction Distillation Network)を提案する。
GLIDNは人やオブジェクトをグラフノードにエンコードし、グラフアテンションネットワークを介して局所的およびグローバルな関係を学習する。
論文 参考訳(メタデータ) (2021-12-17T11:39:44Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。