論文の概要: Cross-Modal Action Recognition in Egocentric Video Using Mamba: Integrating RGB and Hand Skeleton Streams via CLS Token Fusion Strategies
- arxiv url: http://arxiv.org/abs/2605.24302v1
- Date: Sat, 23 May 2026 00:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.859038
- Title: Cross-Modal Action Recognition in Egocentric Video Using Mamba: Integrating RGB and Hand Skeleton Streams via CLS Token Fusion Strategies
- Title(参考訳): マンバを用いたエゴセントリックビデオにおけるクロスモーダルな行動認識:CRSトーケン融合戦略によるRGBとハンドスケルトンストリームの統合
- Authors: Juan Ignacio Bustos Gorostegui, Maria Elena Buemi,
- Abstract要約: 本稿では,RGBビデオと時間的手関節データを組み合わせたクロスモーダルアーキテクチャを提案する。
私たちのアーキテクチャは,視覚的特徴抽出のためのVideoMambaモジュール,Mambaブロックのスタック上に構築されたスケルトンエンコーダ,両モジュールを単一の表現に統合する融合モジュールの3つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric action recognition is a challenging task due to erratic camera motion, frequent hand occlusion, and the difficulty of maintaining consistent visual representations over time. In this work, we propose a cross-modal architecture that combines RGB video and temporal hand skeleton data within a unified Mamba-based framework, exploiting the linear time complexity of State Space Models (SSMs). Our architecture consists of three components: a VideoMamba module for visual feature extraction, a skeleton encoder built on a stack of Mamba blocks, and a fusion module that integrates both modalities into a single representation. A central contribution of this work is the design and evaluation of four Class (CLS) token mixing strategies for multimodal fusion: Naive, Average, Weighted and Context-based. These strategies differ in how the pretrained unimodal CLS tokens, which role is to act as information sinks concentrating learned representations, are leveraged to initialize the mixed CLS token used for final classification. We evaluate all strategies on the H2O dataset. Experimental results show that the Average strategy achieves the best performance, yielding gains of over 10% Top-1 accuracy in the Tiny configuration and 2% in the Small configuration over the VideoMamba baseline.
- Abstract(参考訳): エゴセントリックな行動認識は、不規則なカメラの動き、頻繁な手の閉塞、時間の経過とともに一貫した視覚的表現を維持することの難しさによって難しい課題である。
本研究では,状態空間モデル(SSM)の線形時間的複雑性を利用して,RGBビデオと時間的手骨格データを統一したMambaベースのフレームワークで組み合わせたクロスモーダルアーキテクチャを提案する。
私たちのアーキテクチャは,視覚的特徴抽出のためのVideoMambaモジュール,Mambaブロックのスタック上に構築されたスケルトンエンコーダ,両モジュールを単一の表現に統合する融合モジュールの3つのコンポーネントで構成されている。
この研究の中心的な貢献は、多モード核融合のための4つのクラス(CLS)トークン混合戦略(Naive, Average, Weighted, Context-based)の設計と評価である。
これらの戦略は、学習表現を集中させる情報シンクとして機能し、最終分類に使用される混合CLSトークンを初期化するために活用される、事前訓練されたユニモーダルCRSトークンとの違いである。
H2Oデータセット上のすべての戦略を評価する。
実験結果から,Tiny構成では10%以上のTop-1精度,VideoMambaベースラインでは2%以上のSmall構成が得られた。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。