論文の概要: Patch as Node: Human-Centric Graph Representation Learning for Multimodal Action Recognition
- arxiv url: http://arxiv.org/abs/2512.21916v1
- Date: Fri, 26 Dec 2025 08:17:10 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:00.723428
- Title: Patch as Node: Human-Centric Graph Representation Learning for Multimodal Action Recognition
- Title(参考訳): ノードとしてのパッチ:マルチモーダル行動認識のための人中心グラフ表現学習
- Authors: Zeyu Liang, Hailun Xia, Naichuan Zheng,
- Abstract要約: マルチモーダル動作認識のための人中心グラフ表現学習フレームワークPANを提案する。
本稿では,2経路グラフ畳み込みネットワークを用いたPAN-Ensembleと,単一ネットワーク内で統一グラフ表現学習を行うPAN-Unifiedの2種類を提案する。
- 参考スコア(独自算出の注目度): 0.5964436882344729
- License:
- Abstract: While human action recognition has witnessed notable achievements, multimodal methods fusing RGB and skeleton modalities still suffer from their inherent heterogeneity and fail to fully exploit the complementary potential between them. In this paper, we propose PAN, the first human-centric graph representation learning framework for multimodal action recognition, in which token embeddings of RGB patches containing human joints are represented as spatiotemporal graphs. The human-centric graph modeling paradigm suppresses the redundancy in RGB frames and aligns well with skeleton-based methods, thus enabling a more effective and semantically coherent fusion of multimodal features. Since the sampling of token embeddings heavily relies on 2D skeletal data, we further propose attention-based post calibration to reduce the dependency on high-quality skeletal data at a minimal cost interms of model performance. To explore the potential of PAN in integrating with skeleton-based methods, we present two variants: PAN-Ensemble, which employs dual-path graph convolution networks followed by late fusion, and PAN-Unified, which performs unified graph representation learning within a single network. On three widely used multimodal action recognition datasets, both PAN-Ensemble and PAN-Unified achieve state-of-the-art (SOTA) performance in their respective settings of multimodal fusion: separate and unified modeling, respectively.
- Abstract(参考訳): 人間の行動認識は顕著な成果をみせてきたが、RGBと骨格のモダリティを融合させるマルチモーダル法は依然として固有の不均一性に悩まされており、それらの相補的ポテンシャルを完全に活用することができない。
本稿では,人間の関節を含むRGBパッチのトークン埋め込みを時空間グラフとして表現する,マルチモーダル動作認識のための最初の人中心グラフ表現学習フレームワークであるPANを提案する。
人中心グラフモデリングパラダイムは、RGBフレームの冗長性を抑え、スケルトンベースの手法とよく整合し、より効果的でセマンティックに整合したマルチモーダル特徴の融合を可能にする。
トークン埋め込みのサンプリングは2次元骨格データに大きく依存しているため、モデル性能の最小限のコストで高品質骨格データへの依存性を低減するために、注意に基づくポストキャリブレーションを提案する。
そこで本研究では,2経路グラフ畳み込みネットワークを併用したPAN-Ensembleと,単一ネットワーク内で統一グラフ表現学習を行うPAN-Unifiedの2つのバリエーションについて検討する。
広範に使用されている3つのマルチモーダル動作認識データセットにおいて、PAN-EnsembleとPAN-Unifiedは、それぞれのマルチモーダル融合設定において、それぞれ独立および統一されたモデリングにおいて、最先端(SOTA)のパフォーマンスを達成する。
関連論文リスト
- Enhancing Semi-Supervised Multi-View Graph Convolutional Networks via Supervised Contrastive Learning and Self-Training [9.300953069946969]
グラフ畳み込みネットワーク(GCN)に基づく多視点学習は、異種視点から構造情報を統合するための強力なフレームワークを提供する。
既存のメソッドはビューをまたいだ補完的な情報を十分に活用することができず、最適化された特徴表現と限られたパフォーマンスに繋がる。
MV-SupGCNは,複数の相補的成分と明確なモチベーションと相互強化を統合した半教師付きGCNモデルである。
論文 参考訳(メタデータ) (2025-12-15T16:39:23Z) - Semantic Item Graph Enhancement for Multimodal Recommendation [49.66272783945571]
マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。
これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
論文 参考訳(メタデータ) (2025-08-08T09:20:50Z) - GaitMA: Pose-guided Multi-modal Feature Fusion for Gait Recognition [26.721242606715354]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は、Gait Multi-model Aggregation Network (GaitMA)と呼ばれる新しい歩行認識フレームワークを提案する。
まず, 2つのCNN特徴抽出器を用いて, シルエットと骨格の特徴を抽出した。
論文 参考訳(メタデータ) (2024-07-20T09:05:17Z) - MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction [9.75237128240713]
脳障害予測のためのマルチモーダルグラフ深層学習フレームワークMM-GTUNetsを提案する。
本稿では,報酬システムを用いて集団グラフを適応的に構築するMRRL(Modality Reward Representation Learning)を提案する。
また,ACMGL(Adaptive Cross-Modal Graph Learning)を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:14:43Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。