論文の概要: Geometric Features Informed Multi-person Human-object Interaction
Recognition in Videos
- arxiv url: http://arxiv.org/abs/2207.09425v1
- Date: Tue, 19 Jul 2022 17:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 14:07:14.204164
- Title: Geometric Features Informed Multi-person Human-object Interaction
Recognition in Videos
- Title(参考訳): 映像における多目的対話認識の幾何学的特徴
- Authors: Tanqiu Qiao and Qianhui Men and Frederick W. B. Li and Yoshiki
Kubotani and Shigeo Morishima and Hubert P. H. Shum
- Abstract要約: 我々は、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせることを主張する。
本稿では,2G-GCN (2-level Geometric feature-informed Graph Convolutional Network) を提案する。
挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。
- 参考スコア(独自算出の注目度): 19.64072251418535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Object Interaction (HOI) recognition in videos is important for
analyzing human activity. Most existing work focusing on visual features
usually suffer from occlusion in the real-world scenarios. Such a problem will
be further complicated when multiple people and objects are involved in HOIs.
Consider that geometric features such as human pose and object position provide
meaningful information to understand HOIs, we argue to combine the benefits of
both visual and geometric features in HOI recognition, and propose a novel
Two-level Geometric feature-informed Graph Convolutional Network (2G-GCN). The
geometric-level graph models the interdependency between geometric features of
humans and objects, while the fusion-level graph further fuses them with visual
features of humans and objects. To demonstrate the novelty and effectiveness of
our method in challenging scenarios, we propose a new multi-person HOI dataset
(MPHOI-72). Extensive experiments on MPHOI-72 (multi-person HOI), CAD-120
(single-human HOI) and Bimanual Actions (two-hand HOI) datasets demonstrate our
superior performance compared to state-of-the-arts.
- Abstract(参考訳): ビデオにおけるヒューマン・オブジェクト・インタラクション(HOI)の認識は、人間の活動を分析する上で重要である。
視覚的特徴に焦点を当てた既存の作業は、通常、現実世界のシナリオで排除される。
このような問題は、複数の人やオブジェクトがHOIに関与している場合、さらに複雑になります。
ヒトのポーズや物体の位置といった幾何学的特徴がHOIを理解する上で有意義な情報をもたらすことを考慮し、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせ、新しい2レベル幾何的特徴インフォームドグラフ畳み込みネットワーク(2G-GCN)を提案する。
幾何学レベルグラフは、人間と物体の幾何学的特徴の相互依存性をモデル化し、融合レベルグラフは、さらに人間と物体の視覚的特徴を融合させる。
挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。
mphoi-72 (multi-person hoi), cad-120 (single-human hoi) およびbimanual action (two-hand hoi) データセットの広範な実験により,最新技術と比較して優れた性能が得られた。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos [9.159660801125812]
ビデオベースのヒューマンオブジェクトインタラクション(HOI)認識は、人間とオブジェクトの間の複雑なダイナミクスを探索する。
本研究では,シーンフレームワークCATSに新たなエンドツーエンドカテゴリを提案する。
我々は,これらの拡張幾何学的視覚的特徴をノードとして構成し,人間とオブジェクトのカテゴリ間の関係を学習する。
論文 参考訳(メタデータ) (2024-07-01T02:42:55Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - A Skeleton-aware Graph Convolutional Network for Human-Object
Interaction Detection [14.900704382194013]
そこで我々は,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。
我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉えます。
このような幾何学的特徴と視覚的特徴と、人間と物体のペアから得られる空間的構成特徴を融合させる。
論文 参考訳(メタデータ) (2022-07-11T15:20:18Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。