論文の概要: From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos
- arxiv url: http://arxiv.org/abs/2407.00917v2
- Date: Tue, 23 Jul 2024 13:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:14:13.716600
- Title: From Category to Scenery: An End-to-End Framework for Multi-Person Human-Object Interaction Recognition in Videos
- Title(参考訳): カテゴリーからシーンへ:ビデオにおけるマルチパーソン・ヒューマン・オブジェクトのインタラクション認識のためのエンドツーエンドフレームワーク
- Authors: Tanqiu Qiao, Ruochen Li, Frederick W. B. Li, Hubert P. H. Shum,
- Abstract要約: ビデオベースのヒューマンオブジェクトインタラクション(HOI)認識は、人間とオブジェクトの間の複雑なダイナミクスを探索する。
本研究では,シーンフレームワークCATSに新たなエンドツーエンドカテゴリを提案する。
我々は,これらの拡張幾何学的視覚的特徴をノードとして構成し,人間とオブジェクトのカテゴリ間の関係を学習する。
- 参考スコア(独自算出の注目度): 9.159660801125812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based Human-Object Interaction (HOI) recognition explores the intricate dynamics between humans and objects, which are essential for a comprehensive understanding of human behavior and intentions. While previous work has made significant strides, effectively integrating geometric and visual features to model dynamic relationships between humans and objects in a graph framework remains a challenge. In this work, we propose a novel end-to-end category to scenery framework, CATS, starting by generating geometric features for various categories through graphs respectively, then fusing them with corresponding visual features. Subsequently, we construct a scenery interactive graph with these enhanced geometric-visual features as nodes to learn the relationships among human and object categories. This methodological advance facilitates a deeper, more structured comprehension of interactions, bridging category-specific insights with broad scenery dynamics. Our method demonstrates state-of-the-art performance on two pivotal HOI benchmarks, including the MPHOI-72 dataset for multi-person HOIs and the single-person HOI CAD-120 dataset.
- Abstract(参考訳): ビデオに基づくヒューマンオブジェクトインタラクション(HOI)認識は、人間の行動や意図の包括的理解に不可欠である、人間とオブジェクトの間の複雑なダイナミクスを探索する。
これまでの研究は大きな進歩を遂げてきたが、グラフフレームワークにおける人間とオブジェクトの動的関係をモデル化するために、幾何学的特徴と視覚的特徴を効果的に統合することは、依然として課題である。
本研究では,各カテゴリの幾何学的特徴をそれぞれグラフで生成し,それに対応する視覚的特徴と融合させることで,シーンフレームワークCATSの新たなエンドツーエンドカテゴリを提案する。
次に,これらの拡張幾何学的視覚的特徴をノードとして配置し,人間とオブジェクトのカテゴリ間の関係を学習する。
この方法論の進歩は、より深く、より構造化された相互作用の理解を促進する。
提案手法は,MPHOI-72データセットとHOI CAD-120データセットを含む2種類のHOIベンチマークにおける最先端性能を示す。
関連論文リスト
- Learning Mutual Excitation for Hand-to-Hand and Human-to-Human
Interaction Recognition [22.538114033191313]
相互励起グラフ畳み込み層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。
Me-GCは各レイヤとグラフ畳み込み操作の各ステージで相互情報を学習する。
提案するme-GCは,最先端GCN法およびTransformer法より優れている。
論文 参考訳(メタデータ) (2024-02-04T10:00:00Z) - HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding [8.10024991952397]
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
階層構造内の統一層とグラフを利用する階層型インターレースグラフ (HIG) という新しい手法を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-05T18:47:19Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Geometric Features Informed Multi-person Human-object Interaction
Recognition in Videos [19.64072251418535]
我々は、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせることを主張する。
本稿では,2G-GCN (2-level Geometric feature-informed Graph Convolutional Network) を提案する。
挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。
論文 参考訳(メタデータ) (2022-07-19T17:36:55Z) - A Skeleton-aware Graph Convolutional Network for Human-Object
Interaction Detection [14.900704382194013]
そこで我々は,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。
我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉えます。
このような幾何学的特徴と視覚的特徴と、人間と物体のペアから得られる空間的構成特徴を融合させる。
論文 参考訳(メタデータ) (2022-07-11T15:20:18Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。