論文の概要: Multi-modality action recognition based on dual feature shift in vehicle
cabin monitoring
- arxiv url: http://arxiv.org/abs/2401.14838v1
- Date: Fri, 26 Jan 2024 13:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:00:49.209837
- Title: Multi-modality action recognition based on dual feature shift in vehicle
cabin monitoring
- Title(参考訳): 車両キャビン監視における二重特徴シフトに基づく多モード行動認識
- Authors: Dan Lin, Philip Hann Yung Lee, Yiming Li, Ruoyu Wang, Kim-Hui Yap,
Bingbing Li, and You Shing Ngim
- Abstract要約: そこで本研究では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。
Drive&Act データセット上で提案した DFS モデルの有効性を検証する実験が実施されている。
- 参考スコア(独自算出の注目度): 13.621051517649937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Driver Action Recognition (DAR) is crucial in vehicle cabin monitoring
systems. In real-world applications, it is common for vehicle cabins to be
equipped with cameras featuring different modalities. However, multi-modality
fusion strategies for the DAR task within car cabins have rarely been studied.
In this paper, we propose a novel yet efficient multi-modality driver action
recognition method based on dual feature shift, named DFS. DFS first integrates
complementary features across modalities by performing modality feature
interaction. Meanwhile, DFS achieves the neighbour feature propagation within
single modalities, by feature shifting among temporal frames. To learn common
patterns and improve model efficiency, DFS shares feature extracting stages
among multiple modalities. Extensive experiments have been carried out to
verify the effectiveness of the proposed DFS model on the Drive\&Act dataset.
The results demonstrate that DFS achieves good performance and improves the
efficiency of multi-modality driver action recognition.
- Abstract(参考訳): 運転行動認識(DAR)は車室内監視システムにおいて重要である。
実世界のアプリケーションでは、キャビンには異なるモードのカメラが装備されることが一般的である。
しかし,カーキャビン内におけるDARタスクに対するマルチモーダリティ融合戦略はめったに研究されていない。
本稿では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。
DFSはまず、モダリティ間の相補的な特徴を統合する。
一方、DFSは、時間的フレーム間の特徴シフトにより、1つのモードで隣り合う特徴伝搬を実現する。
共通パターンを学習し、モデル効率を改善するために、DFSは複数のモードで特徴抽出段階を共有する。
Drive\&Act データセット上で提案した DFS モデルの有効性を検証するために大規模な実験を行った。
その結果,dfsの性能が向上し,マルチモダリティ運転行動認識の効率が向上した。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver
Activity Recognition [16.40477776426277]
本稿では,3次元不注意運転者行動認識のためのMultI-camera Feature Integration (MIFI)アプローチを提案する。
本稿では, シンプルだが効果的なマルチカメラ機能統合フレームワークを提案し, 3種類の機能融合技術を提供する。
3MDADデータセットによる実験結果から,提案したMIFIはシングルビューモデルと比較して連続的に性能を向上できることが示された。
論文 参考訳(メタデータ) (2024-01-25T11:50:43Z) - Exploring Driving Behavior for Autonomous Vehicles Based on Gramian
Angular Field Vision Transformer [13.020654798874475]
本稿では,運転動作の分析を目的としたGAF-ViTモデルを提案する。
提案したViTモデルは、Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-21T04:24:30Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Robust Multiview Multimodal Driver Monitoring System Using Masked
Multi-Head Self-Attention [28.18784311981388]
マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく新しいマルチビューマルチモーダルドライバ監視システムを提案する。
4つの代替核融合戦略(Sum, Convarity, SE, AFF)と比較し、その効果を実証する。
本データベースを用いた実験により, 提案したMHSAベースの核融合法(AUC-ROC:97.0%)は, 全ベースラインおよび従来のアプローチより優れており, 2)パッチマスキングによるMHSAのトレーニングは, モダリティ・ビュー崩壊に対するロバスト性を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-13T09:50:32Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z) - HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文 参考訳(メタデータ) (2021-04-20T04:47:04Z) - Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。
2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文 参考訳(メタデータ) (2020-11-15T07:18:50Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。
2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文 参考訳(メタデータ) (2020-04-01T02:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。