論文の概要: Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2503.14960v2
- Date: Fri, 21 Mar 2025 20:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 11:09:50.952698
- Title: Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition
- Title(参考訳): 細粒度骨格行動認識のためのクロスアテンションを有する体手モダリティエキスパートネットワーク
- Authors: Seungyeon Cho, Tae-Kyun Kim,
- Abstract要約: BHaRNetは、典型的なボディエキスパートモデルをハンドエキスパートモデルで拡張する新しいフレームワークである。
我々のモデルは、協調的な専門化を促進するアンサンブル損失で、両方のストリームを共同で訓練する。
MMNetに触発されて、RGB情報を活用することで、マルチモーダルタスクへのアプローチの適用性を実証する。
- 参考スコア(独自算出の注目度): 28.174638880324014
- License:
- Abstract: Skeleton-based Human Action Recognition (HAR) is a vital technology in robotics and human-robot interaction. However, most existing methods concentrate primarily on full-body movements and often overlook subtle hand motions that are critical for distinguishing fine-grained actions. Recent work leverages a unified graph representation that combines body, hand, and foot keypoints to capture detailed body dynamics. Yet, these models often blur fine hand details due to the disparity between body and hand action characteristics and the loss of subtle features during the spatial-pooling. In this paper, we propose BHaRNet (Body-Hand action Recognition Network), a novel framework that augments a typical body-expert model with a hand-expert model. Our model jointly trains both streams with an ensemble loss that fosters cooperative specialization, functioning in a manner reminiscent of a Mixture-of-Experts (MoE). Moreover, cross-attention is employed via an expertized branch method and a pooling-attention module to enable feature-level interactions and selectively fuse complementary information. Inspired by MMNet, we also demonstrate the applicability of our approach to multi-modal tasks by leveraging RGB information, where body features guide RGB learning to capture richer contextual cues. Experiments on large-scale benchmarks (NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, and Northwestern-UCLA) demonstrate that BHaRNet achieves SOTA accuracies -- improving from 86.4\% to 93.0\% in hand-intensive actions -- while maintaining fewer GFLOPs and parameters than the relevant unified methods.
- Abstract(参考訳): 骨格に基づくヒューマンアクション認識(Human Action Recognition, HAR)は、ロボット工学と人間とロボットの相互作用において重要な技術である。
しかし、既存のほとんどの手法は、主に全身の動きに集中しており、細かな動作を区別するために重要な微妙な手の動きを見落としていることが多い。
最近の研究は、体、手、足のキーポイントを組み合わせて詳細な体の動きを捉える統一グラフ表現を活用している。
しかし、これらのモデルはしばしば、身体と手の動作特性の相違と空間プール時の微妙な特徴の喪失により、細かな手の詳細をぼかす。
本稿では,BHaRNet(Body-Hand Action Recognition Network)を提案する。
我々のモデルは、協調的な専門化を促進するアンサンブル損失で両方のストリームを共同訓練し、Mixture-of-Experts (MoE) を連想させるように機能する。
さらに、機能レベルの相互作用を可能とし、補完情報を選択的にフューズするために、専門ブランチメソッドとプールアテンションモジュールを介してクロスアテンションが使用される。
MMNetに触発されて、RGB情報を活用することでマルチモーダルタスクへのアプローチの適用性を示す。
大規模なベンチマーク(NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA)の実験では、BHaRNetがSOTA認証を達成している。
関連論文リスト
- Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter [32.64004722423187]
RGB-スケルトン行動認識モデルのロバスト性を改善する方法について述べる。
本稿では,formatwordAMR(formatwordAttention-based formatwordModality formatwordReweighter)を提案する。
私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
論文 参考訳(メタデータ) (2024-07-29T13:15:51Z) - MARS: Multimodal Active Robotic Sensing for Articulated Characterization [6.69660410213287]
我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダルフュージョンモジュールを備えている。
本手法は,実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
論文 参考訳(メタデータ) (2024-07-01T11:32:39Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。