論文の概要: Improving Skeleton-based Action Recognition with Interactive Object Information
- arxiv url: http://arxiv.org/abs/2501.05066v1
- Date: Thu, 09 Jan 2025 08:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:27.448498
- Title: Improving Skeleton-based Action Recognition with Interactive Object Information
- Title(参考訳): 対話型オブジェクト情報を用いた骨格に基づく行動認識の改善
- Authors: Hao Wen, Ziqian Lu, Fengli Shen, Zhe-Ming Lu, Jialin Cui,
- Abstract要約: 本稿では,不在な対話的オブジェクト情報を補うために,オブジェクトノードを導入した新しい行動認識フレームワークを提案する。
我々は、追加のオブジェクト情報を組み込んだオーバーフィッティング問題を初めて検討する。
本手法は,複数の骨格に基づく行動認識ベンチマークにおいて,これまでの最先端の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 7.864831832119702
- License:
- Abstract: Human skeleton information is important in skeleton-based action recognition, which provides a simple and efficient way to describe human pose. However, existing skeleton-based methods focus more on the skeleton, ignoring the objects interacting with humans, resulting in poor performance in recognizing actions that involve object interactions. We propose a new action recognition framework introducing object nodes to supplement absent interactive object information. We also propose Spatial Temporal Variable Graph Convolutional Networks (ST-VGCN) to effectively model the Variable Graph (VG) containing object nodes. Specifically, in order to validate the role of interactive object information, by leveraging a simple self-training approach, we establish a new dataset, JXGC 24, and an extended dataset, NTU RGB+D+Object 60, including more than 2 million additional object nodes. At the same time, we designe the Variable Graph construction method to accommodate a variable number of nodes for graph structure. Additionally, we are the first to explore the overfitting issue introduced by incorporating additional object information, and we propose a VG-based data augmentation method to address this issue, called Random Node Attack. Finally, regarding the network structure, we introduce two fusion modules, CAF and WNPool, along with a novel Node Balance Loss, to enhance the comprehensive performance by effectively fusing and balancing skeleton and object node information. Our method surpasses the previous state-of-the-art on multiple skeleton-based action recognition benchmarks. The accuracy of our method on NTU RGB+D 60 cross-subject split is 96.7\%, and on cross-view split, it is 99.2\%.
- Abstract(参考訳): 人間の骨格情報は、人間のポーズを記述するシンプルで効率的な方法を提供する骨格に基づく行動認識において重要である。
しかしながら、既存の骨格に基づく手法は、人間と相互作用する物体を無視して骨格をより重視し、結果として、物体の相互作用を含む行動を認識する性能が低下する。
本稿では,不在な対話オブジェクト情報を補うために,オブジェクトノードを導入した新しい行動認識フレームワークを提案する。
また、オブジェクトノードを含む可変グラフ(VG)を効果的にモデル化するために、時空間可変グラフ畳み込みネットワーク(ST-VGCN)を提案する。
具体的には、インタラクティブなオブジェクト情報の役割を検証するために、単純な自己学習アプローチを利用して、200万以上のオブジェクトノードを含む新しいデータセット、JXGC 24と拡張データセット、NTU RGB+D+Object 60を確立する。
同時に,グラフ構造に対する可変数のノードに対応する可変グラフ構築法を設計する。
さらに、我々は、追加のオブジェクト情報を組み込んだオーバーフィッティング問題を初めて検討し、ランダムノード攻撃と呼ばれるこの問題に対処するためのVGベースのデータ拡張手法を提案する。
最後に、ネットワーク構造に関して、2つの融合モジュールであるCAFとWNPoolと、新しいノードバランス損失を導入し、スケルトンとオブジェクトノード情報を効果的に融合・バランスさせることで、包括的なパフォーマンスを向上させる。
本手法は,複数の骨格に基づく行動認識ベンチマークにおいて,これまでの最先端の手法を超越した手法である。
NTU RGB+D 60クロスオブジェクトスプリットの精度は96.7\%であり、クロスビュースプリットでは99.2\%である。
関連論文リスト
- Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Object-based (yet Class-agnostic) Video Domain Adaptation [78.34712426922519]
我々はODAPT(Object-based (yet Class-Agnostic) Video Domain Adaptation)を提案する。
ODAPTは、既存のアクション認識システムを新しいドメインに適応するための、シンプルで効果的なフレームワークである。
我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。
論文 参考訳(メタデータ) (2023-11-29T01:17:38Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeletal Human Action Recognition using Hybrid Attention based Graph
Convolutional Network [3.261599248682793]
相対的距離と相対的角度情報に基づいて局所的注意マップをグローバルに拡張する適応型空間的注意層を提案する。
我々は,頭部,手,足を結ぶ新しい初期グラフ隣接行列を設計し,行動認識精度の点で目に見える改善点を示す。
提案モデルは,日常生活における人間活動の分野における大規模かつ挑戦的な2つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-07-12T12:22:21Z) - A Skeleton-aware Graph Convolutional Network for Human-Object
Interaction Detection [14.900704382194013]
そこで我々は,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。
我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉えます。
このような幾何学的特徴と視覚的特徴と、人間と物体のペアから得られる空間的構成特徴を融合させる。
論文 参考訳(メタデータ) (2022-07-11T15:20:18Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Pose-based Modular Network for Human-Object Interaction Detection [5.6397911482914385]
提案するPose-based Modular Network (PMN) は,絶対的なポーズ特徴と相対的な空間的ポーズ特徴を探索し,HOI検出を改善する。
提案手法を評価するため,VS-GATと呼ばれる最新技術モデルと組み合わせ,2つの公開ベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-08-05T10:56:09Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。