論文の概要: CM2-Net: Continual Cross-Modal Mapping Network for Driver Action Recognition
- arxiv url: http://arxiv.org/abs/2406.11340v2
- Date: Tue, 18 Jun 2024 08:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:41:25.463002
- Title: CM2-Net: Continual Cross-Modal Mapping Network for Driver Action Recognition
- Title(参考訳): CM2-Net:ドライバ動作認識のための連続型クロスモーダルマッピングネットワーク
- Authors: Ruoyu Wang, Chen Cai, Wenqian Wang, Jianjun Gao, Dan Lin, Wenyang Liu, Kim-Hui Yap,
- Abstract要約: 本稿では,新たにやってくる各モダリティを継続的に学習する連続的クロスモーダルマッピングネットワーク(CM2-Net)を提案する。
我々は,識別的・情報的特徴を地図化するために,累積クロスモーダルマッピング・プロンプト(ACMP)を開発した。
Drive&Actデータセットで行った実験は、ユニモーダルドライバとマルチモーダルドライバの両方でCM2-Netの性能上の優位性を示す。
- 参考スコア(独自算出の注目度): 11.918982714404025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver action recognition has significantly advanced in enhancing driver-vehicle interactions and ensuring driving safety by integrating multiple modalities, such as infrared and depth. Nevertheless, compared to RGB modality only, it is always laborious and costly to collect extensive data for all types of non-RGB modalities in car cabin environments. Therefore, previous works have suggested independently learning each non-RGB modality by fine-tuning a model pre-trained on RGB videos, but these methods are less effective in extracting informative features when faced with newly-incoming modalities due to large domain gaps. In contrast, we propose a Continual Cross-Modal Mapping Network (CM2-Net) to continually learn each newly-incoming modality with instructive prompts from the previously-learned modalities. Specifically, we have developed Accumulative Cross-modal Mapping Prompting (ACMP), to map the discriminative and informative features learned from previous modalities into the feature space of newly-incoming modalities. Then, when faced with newly-incoming modalities, these mapped features are able to provide effective prompts for which features should be extracted and prioritized. These prompts are accumulating throughout the continual learning process, thereby boosting further recognition performances. Extensive experiments conducted on the Drive&Act dataset demonstrate the performance superiority of CM2-Net on both uni- and multi-modal driver action recognition.
- Abstract(参考訳): ドライバーの行動認識は、赤外線や深度などの複数のモードを統合することにより、ドライバーと車両の相互作用を強化し、運転安全性を確保するために著しく進歩している。
それにもかかわらず、RGBのモダリティのみと比較して、車室内環境におけるRGB以外のあらゆる種類のモダリティの広範なデータ収集には、常に努力と費用がかかる。
そのため、従来の研究では、RGBビデオ上で事前訓練されたモデルを微調整することで、各非RGBモダリティを個別に学習することが提案されているが、これらの手法は、大きなドメインギャップによる新たなモダリティに直面した際の情報的特徴の抽出にはあまり効果がない。
これとは対照的に,新たに導入される各モダリティを,事前に学習したモダリティからインストラクティブプロンプトで継続的に学習する連続的クロスモーダルマッピングネットワーク(CM2-Net)を提案する。
具体的には,従来のモダリティから得られた識別的特徴と情報的特徴を,新たに登場するモダリティの特徴空間にマッピングする,累積的クロスモーダルマッピング・プロンプト(ACMP)を開発した。
そして、新しく登場するモダリティに直面すると、これらのマッピングされた機能は、どの機能を抽出して優先順位付けすべきかの効果的なプロンプトを提供することができる。
これらのプロンプトは継続学習プロセスを通じて蓄積され、さらなる認識性能が向上する。
Drive&Actデータセット上で行った大規模な実験は、一乗および多乗の両方のドライバ動作認識におけるCM2-Netの性能上の優位性を実証している。
関連論文リスト
- Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Multi-Task and Multi-Modal Learning for RGB Dynamic Gesture Recognition [12.084948658382679]
本稿では,2次元畳み込みニューラルネットワークの学習におけるエンドツーエンドのマルチタスク学習フレームワークを提案する。
このフレームワークは、深度モダリティを使用して、トレーニング中の精度を改善し、推論中のRGBモダリティのみを使用することでコストを削減できる。
Multi-Scale-Decoderというプラグイン・アンド・プレイモジュールはジェスチャーのセグメンテーションを実現するために設計されている。
論文 参考訳(メタデータ) (2021-10-29T09:22:39Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z) - Real-time Fusion Network for RGB-D Semantic Segmentation Incorporating
Unexpected Obstacle Detection for Road-driving Images [13.3382165879322]
RFNetと呼ばれるリアルタイムな融合セマンティックセグメンテーションネットワークを提案する。
RFNetは迅速な実行が可能で、自動運転車のアプリケーションを満たす。
Cityscapesでは,従来の最先端セマンティックセマンティックセマンティックセマンティックスよりも優れた精度と22Hzの推論速度で優れていた。
論文 参考訳(メタデータ) (2020-02-24T22:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。