論文の概要: HDBN: A Novel Hybrid Dual-branch Network for Robust Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2404.15719v2
- Date: Thu, 25 Apr 2024 08:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:49:56.976807
- Title: HDBN: A Novel Hybrid Dual-branch Network for Robust Skeleton-based Action Recognition
- Title(参考訳): HDBN:ロバスト骨格に基づく行動認識のためのハイブリッドデュアルブランチネットワーク
- Authors: Jinfu Liu, Baiqiao Yin, Jiaying Lin, Jiajun Wen, Yue Li, Mengyuan Liu,
- Abstract要約: そこで本研究では,骨格をベースとした動作認識のためのハイブリットデュアルブランチネットワーク(HDBN)を提案する。
提案するHDBNは,MixGCNとMixFormerの2つの幹分枝に分けられる。
提案するHDBNは,2024年ICMEグランドチャレンジのマルチモーダルビデオ推論・アナライジングコンペティション(MMVRAC)におけるトップソリューションの1つとして登場した。
- 参考スコア(独自算出の注目度): 17.253937687487717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition has gained considerable traction thanks to its utilization of succinct and robust skeletal representations. Nonetheless, current methodologies often lean towards utilizing a solitary backbone to model skeleton modality, which can be limited by inherent flaws in the network backbone. To address this and fully leverage the complementary characteristics of various network architectures, we propose a novel Hybrid Dual-Branch Network (HDBN) for robust skeleton-based action recognition, which benefits from the graph convolutional network's proficiency in handling graph-structured data and the powerful modeling capabilities of Transformers for global information. In detail, our proposed HDBN is divided into two trunk branches: MixGCN and MixFormer. The two branches utilize GCNs and Transformers to model both 2D and 3D skeletal modalities respectively. Our proposed HDBN emerged as one of the top solutions in the Multi-Modal Video Reasoning and Analyzing Competition (MMVRAC) of 2024 ICME Grand Challenge, achieving accuracies of 47.95% and 75.36% on two benchmarks of the UAV-Human dataset by outperforming most existing methods. Our code will be publicly available at: https://github.com/liujf69/ICMEW2024-Track10.
- Abstract(参考訳): スケルトンをベースとした行動認識は、簡潔で頑健な骨格表現の利用により、かなりの注目を集めている。
それにもかかわらず、現在の方法論は、しばしば単独のバックボーンを利用して、ネットワークのバックボーンに固有の欠陥によって制限される骨格のモダリティをモデル化する。
そこで本稿では, グラフ構造データ処理におけるグラフ畳み込みネットワークの習熟度と, グローバル情報のためのトランスフォーマーの強力なモデリング能力の恩恵を受ける, 頑健なスケルトンに基づく行動認識のためのハイブリッドデュアルブランチネットワーク(HDBN)を提案する。
提案するHDBNは,MixGCNとMixFormerの2つの幹分枝に分けられる。
2つの枝はGCNとトランスフォーマーを使用してそれぞれ2Dと3Dの骨格モーダルをモデル化する。
提案したHDBNは,UAV-Humanデータセットの2つのベンチマークで47.95%と75.36%のアキュラティを達成し,既存の手法を上回り,Multi-Modal Video Reasoning and Analyzing Competition(MMVRAC)の上位ソリューションの1つとして登場した。
私たちのコードは、https://github.com/liujf69/ICMEW2024-Track10.comで公開されます。
関連論文リスト
- Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Multiplex Graph Networks for Multimodal Brain Network Analysis [30.195666008281915]
我々は,マルチモーダル脳ネットワーク解析のための簡易かつ効果的な多重グラフ畳み込みネットワーク(GCN)モデルMGNetを提案する。
現実の2つの挑戦的データセット(HIVと双極性障害)の分類タスクを行う。
論文 参考訳(メタデータ) (2021-07-31T06:01:29Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition [22.90127409366107]
グラフ畳み込みネットワーク(GCN)に基づく効率的だが強力なベースラインを提案する。
畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されたResGCNモジュールがGCNで導入された。
PartAttブロックは、アクションシーケンス全体の上で最も重要な身体部分を発見するために提案される。
論文 参考訳(メタデータ) (2020-10-20T02:56:58Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。