論文の概要: BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2601.00369v1
- Date: Thu, 01 Jan 2026 15:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.40715
- Title: BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition
- Title(参考訳): BHaRNet:細粒度骨格行動認識のための信頼性を考慮したボディハンドモダリティエキスパートネットワーク
- Authors: Seungyeon Cho, Tae-kyun Kim,
- Abstract要約: この研究は、信頼性モデリングとマルチモーダル統合を統一し、スケルトン内ドメインとクロスモーダルドメインの両方にわたる不確実性の下で専門的な学習を一般化する確率的デュアルストリームフレームワークを提案する。
本フレームワークは,(1)標準空間変換を除去し,ネイティブ座標から直接学習するキャリブレーションフリー前処理パイプライン,(2)信頼を必要とせず,信頼性に配慮した2重ストリーム学習を安定化する確率的ノイズOR融合,(3)4つの骨格モーダル(関節,骨,関節運動,骨運動)をRGB表現に結合し,構造的および視覚的運動をブリッジングする内部から横断的なアンサンブルからなる。
- 参考スコア(独自算出の注目度): 12.973657570368317
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Skeleton-based human action recognition (HAR) has achieved remarkable progress with graph-based architectures. However, most existing methods remain body-centric, focusing on large-scale motions while neglecting subtle hand articulations that are crucial for fine-grained recognition. This work presents a probabilistic dual-stream framework that unifies reliability modeling and multi-modal integration, generalizing expertized learning under uncertainty across both intra-skeleton and cross-modal domains. The framework comprises three key components: (1) a calibration-free preprocessing pipeline that removes canonical-space transformations and learns directly from native coordinates; (2) a probabilistic Noisy-OR fusion that stabilizes reliability-aware dual-stream learning without requiring explicit confidence supervision; and (3) an intra- to cross-modal ensemble that couples four skeleton modalities (Joint, Bone, Joint Motion, and Bone Motion) to RGB representations, bridging structural and visual motion cues in a unified cross-modal formulation. Comprehensive evaluations across multiple benchmarks (NTU RGB+D~60/120, PKU-MMD, N-UCLA) and a newly defined hand-centric benchmark exhibit consistent improvements and robustness under noisy and heterogeneous conditions.
- Abstract(参考訳): 骨格に基づく人行動認識(HAR)は,グラフベースのアーキテクチャにおいて顕著な進歩を遂げている。
しかし、既存のほとんどの手法は体中心であり、大規模な動きに焦点を合わせながら、微粒な認識に不可欠な微妙な手話を無視している。
この研究は、信頼性モデリングとマルチモーダル統合を統一し、スケルトン内ドメインとクロスモーダルドメインの両方にわたる不確実性の下で専門的な学習を一般化する確率的デュアルストリームフレームワークを提案する。
本フレームワークは,(1)標準空間変換を除去し,ネイティブ座標から直接学習するキャリブレーションフリープリプロセッシングパイプライン,(2)信頼を必要とせず,信頼性に配慮した2重ストリーム学習を安定化する確率的ノイズまたは融合,(3)RGB表現に4つの骨格モダリティ(結合,骨,関節運動,骨運動)を結合する相互アンサンブル,(3)構造的および視覚的運動キューを結合したクロスモーダル形式でブリッジングする。
複数のベンチマーク(NTU RGB+D~60/120、PKU-MMD、N-UCLA)と新たに定義された手中心ベンチマークの総合的な評価は、ノイズおよび異種条件下での一貫した改善と堅牢性を示す。
関連論文リスト
- Patch as Node: Human-Centric Graph Representation Learning for Multimodal Action Recognition [0.5964436882344729]
マルチモーダル動作認識のための人中心グラフ表現学習フレームワークPANを提案する。
本稿では,2経路グラフ畳み込みネットワークを用いたPAN-Ensembleと,単一ネットワーク内で統一グラフ表現学習を行うPAN-Unifiedの2種類を提案する。
論文 参考訳(メタデータ) (2025-12-26T08:17:10Z) - Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [8.505513517407993]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。
まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。
第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。
第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文 参考訳(メタデータ) (2025-07-03T17:37:46Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。