Fugu-MT 論文翻訳(概要): Multi-modality action recognition based on dual feature shift in vehicle cabin monitoring

論文の概要: Multi-modality action recognition based on dual feature shift in vehicle cabin monitoring

arxiv url: http://arxiv.org/abs/2401.14838v1
Date: Fri, 26 Jan 2024 13:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 15:00:49.209837
Title: Multi-modality action recognition based on dual feature shift in vehicle cabin monitoring
Title（参考訳）: 車両キャビン監視における二重特徴シフトに基づく多モード行動認識
Authors: Dan Lin, Philip Hann Yung Lee, Yiming Li, Ruoyu Wang, Kim-Hui Yap, Bingbing Li, and You Shing Ngim
Abstract要約: そこで本研究では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。 Drive&Act データセット上で提案した DFS モデルの有効性を検証する実験が実施されている。
参考スコア（独自算出の注目度）: 13.621051517649937
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Driver Action Recognition (DAR) is crucial in vehicle cabin monitoring systems. In real-world applications, it is common for vehicle cabins to be equipped with cameras featuring different modalities. However, multi-modality fusion strategies for the DAR task within car cabins have rarely been studied. In this paper, we propose a novel yet efficient multi-modality driver action recognition method based on dual feature shift, named DFS. DFS first integrates complementary features across modalities by performing modality feature interaction. Meanwhile, DFS achieves the neighbour feature propagation within single modalities, by feature shifting among temporal frames. To learn common patterns and improve model efficiency, DFS shares feature extracting stages among multiple modalities. Extensive experiments have been carried out to verify the effectiveness of the proposed DFS model on the Drive\&Act dataset. The results demonstrate that DFS achieves good performance and improves the efficiency of multi-modality driver action recognition.
Abstract（参考訳）: 運転行動認識(DAR)は車室内監視システムにおいて重要である。実世界のアプリケーションでは、キャビンには異なるモードのカメラが装備されることが一般的である。しかし,カーキャビン内におけるDARタスクに対するマルチモーダリティ融合戦略はめったに研究されていない。本稿では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。 DFSはまず、モダリティ間の相補的な特徴を統合する。一方、DFSは、時間的フレーム間の特徴シフトにより、1つのモードで隣り合う特徴伝搬を実現する。共通パターンを学習し、モデル効率を改善するために、DFSは複数のモードで特徴抽出段階を共有する。 Drive\&Act データセット上で提案した DFS モデルの有効性を検証するために大規模な実験を行った。その結果,dfsの性能が向上し,マルチモダリティ運転行動認識の効率が向上した。

関連論文リスト

Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。 i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文参考訳（メタデータ） (2025-03-06T07:36:06Z)
Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition [6.115044825582411]
自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。これまでのアプローチでは、微妙な振る舞いの違いを観察する能力が限られていたため、実践的な実装に苦労してきた。本稿では,時間的情報と空間的関係を両立する空間的知覚アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-03-06T04:28:11Z)
Driver Assistance System Based on Multimodal Data Hazard Detection [0.0]
本稿では,マルチモーダル運転支援システムを提案する。道路状況映像、ドライバーの顔映像、音声データを統合して、インシデント認識の精度を高める。
論文参考訳（メタデータ） (2025-02-05T09:02:39Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文参考訳（メタデータ） (2024-09-15T15:55:24Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition [10.060717595852271]
我々はMultiFuserという新しいマルチモーダル核融合トランスを提案する。マルチモーダルカーキャビンビデオ間の相互関係と相互作用を識別する。 Drive&Actデータセットで大規模な実験を行う。
論文参考訳（メタデータ） (2024-08-03T12:33:21Z)
ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar [7.2865477881451755]
非対称フェアフュージョン(AFF)モジュールは、視覚とレーダーの両方から独立した特徴と効率的に相互作用するように設計されている。 ASY-VRNetモデルは不規則な超画素点集合に基づいて画像とレーダの特徴を処理する。他の軽量モデルと比較して、ASY-VRNetはオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-20T14:53:27Z)
Robust Multiview Multimodal Driver Monitoring System Using Masked Multi-Head Self-Attention [28.18784311981388]
マルチヘッド自己注意(MHSA)による特徴レベル融合に基づく新しいマルチビューマルチモーダルドライバ監視システムを提案する。 4つの代替核融合戦略(Sum, Convarity, SE, AFF)と比較し、その効果を実証する。本データベースを用いた実験により, 提案したMHSAベースの核融合法(AUC-ROC:97.0%)は, 全ベースラインおよび従来のアプローチより優れており, 2)パッチマスキングによるMHSAのトレーニングは, モダリティ・ビュー崩壊に対するロバスト性を向上させることができることが示された。
論文参考訳（メタデータ） (2023-04-13T09:50:32Z)
Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文参考訳（メタデータ） (2023-03-03T08:54:06Z)
HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。 HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。 fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文参考訳（メタデータ） (2021-04-20T04:47:04Z)
Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。 2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文参考訳（メタデータ） (2020-11-15T07:18:50Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
Shared Cross-Modal Trajectory Prediction for Autonomous Driving [24.07872495811019]
本稿では,複数入力モダリティの利用のメリットを活かしたクロスモーダルな埋め込みフレームワークを提案する。 2つのベンチマーク駆動データセットを用いて,提案手法の有効性を示すため,広範囲な評価を行った。
論文参考訳（メタデータ） (2020-04-01T02:44:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。