論文の概要: B-MoE: A Body-Part-Aware Mixture-of-Experts "All Parts Matter" Approach to Micro-Action Recognition
- arxiv url: http://arxiv.org/abs/2603.24245v1
- Date: Wed, 25 Mar 2026 12:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.288186
- Title: B-MoE: A Body-Part-Aware Mixture-of-Experts "All Parts Matter" Approach to Micro-Action Recognition
- Title(参考訳): B-MoE:B-Part-Aware Mixture-of-Experts "All Parts Matter" Approach to Micro-Action Recognition (特集:バイオサイバネティックスとバイオサイバネティックス)
- Authors: Nishit Poddar, Aglind Reka, Diana-Laura Borza, Snehashis Majhi, Michal Balazia, Abhijit Das, Francois Bremond,
- Abstract要約: B-MoE(Body-part-aware Mixture-of-Experts)は、人間の動作の構造的性質を明示的にモデル化するフレームワークである。
クロスアテンションルーティング機構は、地域間関係を学習し、マイクロアクション毎に最も情報性の高い領域を動的に選択する。
実験では、あいまいで、表現不足で、振幅の低いクラスが改善され、一貫した最先端のゲインが示される。
- 参考スコア(独自算出の注目度): 5.793225171047889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-actions, fleeting and low-amplitude motions, such as glances, nods, or minor posture shifts, carry rich social meaning but remain difficult for current action recognition models to recognize due to their subtlety, short duration, and high inter-class ambiguity. In this paper, we introduce B-MoE, a Body-part-aware Mixture-of-Experts framework designed to explicitly model the structured nature of human motion. In B-MoE, each expert specializes in a distinct body region (head, body, upper limbs, lower limbs), and is based on the lightweight Macro-Micro Motion Encoder (M3E) that captures long-range contextual structure and fine-grained local motion. A cross-attention routing mechanism learns inter-region relationships and dynamically selects the most informative regions for each micro-action. B-MoE uses a dual-stream encoder that fuses these region-specific semantic cues with global motion features to jointly capture spatially localized cues and temporally subtle variations that characterize micro-actions. Experiments on three challenging benchmarks (MA-52, SocialGesture, and MPII-GroupInteraction) show consistent state-of-theart gains, with improvements in ambiguous, underrepresented, and low amplitude classes.
- Abstract(参考訳): 視線、結節、姿勢の変化などの微動や低振幅の動きは、社会的に豊かな意味を持つが、現在の行動認識モデルは、その微妙さ、短命、階級間の曖昧さのために認識するのが困難である。
本稿では,B-MoE(Body-part-aware Mixture-of-Experts)フレームワークについて紹介する。
B-MoEでは、各専門家は異なる身体領域(頭、体、上肢、下肢)を専門とし、長距離のコンテキスト構造と微細な局所運動を捉える軽量のマクロマイクロモーションエンコーダ(M3E)をベースとしている。
クロスアテンションルーティング機構は、地域間関係を学習し、マイクロアクション毎に最も情報性の高い領域を動的に選択する。
B-MoEは、これらの領域固有のセマンティックキューとグローバルなモーション特徴を融合させるデュアルストリームエンコーダを使用して、空間的に局所化されたキューと、マイクロアクションを特徴付ける時間的に微妙なバリエーションを共同でキャプチャする。
3つの挑戦的ベンチマーク(MA-52、SocialGesture、MPII-GroupInteraction)の実験は、あいまいで、表現不足で、振幅の低いクラスの改善とともに、一貫した最先端の利得を示している。
関連論文リスト
- DEFT-LLM: Disentangled Expert Feature Tuning for Micro-Expression Recognition [16.903294278064667]
マルチエキスパート・ディアングルメントによるセマンティックアライメントを実現するDEFT-LLMを提案する。
まず,テキストと局所的な顔の動きを一致させる動作駆動型命令であるUni-MERを紹介する。
次に、3人の専門家によるアーキテクチャを設計し、顔のダイナミクスを独立した表現に分離します。
論文 参考訳(メタデータ) (2025-11-14T04:21:24Z) - Motion Matters: Motion-guided Modulation Network for Skeleton-based Micro-Action Recognition [26.997350207742034]
マイクロ・アクション(英: Micro-Actions、MA)は、社会的相互作用における非言語コミュニケーションの重要な形態である。
マイクロアクション認識における既存の手法は、しばしばMAの固有の微妙な変化を見落としている。
本稿では,微妙な動きの手がかりを暗黙的に捉え,変調する新しい動き誘導変調ネットワーク(MMN)を提案する。
論文 参考訳(メタデータ) (2025-07-29T16:27:10Z) - MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution [46.600316142855334]
顔のマイクロ圧縮認識(MER)は、過渡的かつ微妙なマイクロ圧縮(ME)作用のために難しい問題である。
本稿では、トランスフォーマー、グラフ畳み込み、バニラ畳み込みの利点を生かしたエンドツーエンドのマイクロアクション対応ディープラーニングフレームワークを提案する。
我々のフレームワークはCASME II, SAMM, SMICベンチマークにおける最先端のMER手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-17T13:35:06Z) - Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。