論文の概要: Hypergraph-based Multi-View Action Recognition using Event Cameras
- arxiv url: http://arxiv.org/abs/2403.19316v1
- Date: Thu, 28 Mar 2024 11:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:33:46.160385
- Title: Hypergraph-based Multi-View Action Recognition using Event Cameras
- Title(参考訳): イベントカメラを用いたハイパーグラフに基づく多視点行動認識
- Authors: Yue Gao, Jiaxuan Lu, Siqi Li, Yipeng Li, Shaoyi Du,
- Abstract要約: マルチビューイベントベースのアクション認識フレームワークであるHyperMVを紹介する。
我々は6つの視点から50のアクションからなる、最も大きなマルチビューイベントベースのアクションデータセットである$textTHUtextMV-EACTtext-50$を提示する。
実験の結果,HyperMVはクロスオブジェクトとクロスビューの両方のシナリオにおいて,ベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 20.965606424362726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition from video data forms a cornerstone with wide-ranging applications. Single-view action recognition faces limitations due to its reliance on a single viewpoint. In contrast, multi-view approaches capture complementary information from various viewpoints for improved accuracy. Recently, event cameras have emerged as innovative bio-inspired sensors, leading to advancements in event-based action recognition. However, existing works predominantly focus on single-view scenarios, leaving a gap in multi-view event data exploitation, particularly in challenges like information deficit and semantic misalignment. To bridge this gap, we introduce HyperMV, a multi-view event-based action recognition framework. HyperMV converts discrete event data into frame-like representations and extracts view-related features using a shared convolutional network. By treating segments as vertices and constructing hyperedges using rule-based and KNN-based strategies, a multi-view hypergraph neural network that captures relationships across viewpoint and temporal features is established. The vertex attention hypergraph propagation is also introduced for enhanced feature fusion. To prompt research in this area, we present the largest multi-view event-based action dataset $\text{THU}^{\text{MV-EACT}}\text{-50}$, comprising 50 actions from 6 viewpoints, which surpasses existing datasets by over tenfold. Experimental results show that HyperMV significantly outperforms baselines in both cross-subject and cross-view scenarios, and also exceeds the state-of-the-arts in frame-based multi-view action recognition.
- Abstract(参考訳): ビデオデータからのアクション認識は、幅広い応用の基盤となる。
シングルビューアクション認識は、単一の視点に依存するため、制限に直面します。
対照的に、マルチビューアプローチは、様々な視点から補完情報をキャプチャし、精度を向上する。
近年、イベントカメラは革新的なバイオインスパイアされたセンサーとして登場し、イベントベースの行動認識の進歩につながっている。
しかし、既存の作業は主にシングルビューのシナリオに焦点を当てており、特に情報不足やセマンティックなミスアライメントといった課題において、マルチビューのイベントデータエクスプロイトのギャップを残している。
このギャップを埋めるために、マルチビューイベントベースのアクション認識フレームワークHyperMVを導入する。
HyperMVは離散イベントデータをフレームのような表現に変換し、共有畳み込みネットワークを用いてビュー関連の特徴を抽出する。
セグメントを頂点として扱い、ルールベースとKNNベースの戦略を用いてハイパーエッジを構築することにより、視点と時間的特徴間の関係をキャプチャするマルチビューハイパーグラフニューラルネットワークを確立する。
頂点アテンションハイパーグラフの伝播も、機能融合の強化のために導入されている。
この領域での研究を促進するために、最大規模のマルチビューイベントベースのアクションデータセットである$\text{THU}^{\text{MV-EACT}}\text{-50}$を示し、既存のデータセットを10倍以上上回る6つの視点からの50のアクションを含む。
実験結果から,HyperMVはクロスオブジェクトとクロスビューの両方のシナリオにおいてベースラインを著しく上回り,フレームベースマルチビュー動作認識の最先端性を上回ることがわかった。
関連論文リスト
- MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
本稿では,新しい階層グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
提案手法は,大規模マルチモーダルモデル上での重勾配計算を回避し,従来の手法の限界を回避する。
我々のモデルは,従来のセグメンテーションベースやマルチモーダルアプローチの制約を伴わずに,リアルタイムビデオ解析のための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Two-level Data Augmentation for Calibrated Multi-view Detection [51.5746691103591]
ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。
また,シーンレベルで直接適用された第2レベルの拡張を提案する。
単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
論文 参考訳(メタデータ) (2022-10-19T17:55:13Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - ViGAT: Bottom-up event recognition and explanation in video using
factorized graph attention network [8.395400675921515]
ViGATは、オブジェクトとフレームの特徴を導出するための純粋アテンションボトムアップアプローチである。
ビデオにおけるイベント認識と説明のタスクのために,これらの特徴を処理するためのヘッドネットワークが提案されている。
提案手法が3つの大規模公開ビデオデータセットに対して最先端の結果を提供することを示す総合的な評価研究を行った。
論文 参考訳(メタデータ) (2022-07-20T14:12:05Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。