論文の概要: MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver
Activity Recognition
- arxiv url: http://arxiv.org/abs/2401.14115v1
- Date: Thu, 25 Jan 2024 11:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:43:10.124963
- Title: MIFI: MultI-camera Feature Integration for Roust 3D Distracted Driver
Activity Recognition
- Title(参考訳): MIFI:ルースト3次元抽出ドライバ動作認識のためのマルチカメラ機能統合
- Authors: Jian Kuang and Wenjing Li and Fang Li and Jun Zhang and Zhongcheng Wu
- Abstract要約: 本稿では,3次元不注意運転者行動認識のためのMultI-camera Feature Integration (MIFI)アプローチを提案する。
本稿では, シンプルだが効果的なマルチカメラ機能統合フレームワークを提案し, 3種類の機能融合技術を提供する。
3MDADデータセットによる実験結果から,提案したMIFIはシングルビューモデルと比較して連続的に性能を向上できることが示された。
- 参考スコア(独自算出の注目度): 16.40477776426277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distracted driver activity recognition plays a critical role in risk
aversion-particularly beneficial in intelligent transportation systems.
However, most existing methods make use of only the video from a single view
and the difficulty-inconsistent issue is neglected. Different from them, in
this work, we propose a novel MultI-camera Feature Integration (MIFI) approach
for 3D distracted driver activity recognition by jointly modeling the data from
different camera views and explicitly re-weighting examples based on their
degree of difficulty. Our contributions are two-fold: (1) We propose a simple
but effective multi-camera feature integration framework and provide three
types of feature fusion techniques. (2) To address the difficulty-inconsistent
problem in distracted driver activity recognition, a periodic learning method,
named example re-weighting that can jointly learn the easy and hard samples, is
presented. The experimental results on the 3MDAD dataset demonstrate that the
proposed MIFI can consistently boost performance compared to single-view
models.
- Abstract(参考訳): 抽出された運転行動認識は、知的輸送システムにおいて特に有益であるリスク回避において重要な役割を果たす。
しかし、既存の手法のほとんどは1つの視点からの映像のみを使用しており、難易度の低い問題は無視されている。
本研究では、異なるカメラビューからデータを共同でモデル化し、その難易度に基づいてサンプルを明示的に重み付けすることで、3次元の注意をそらした運転者行動認識のための新しいMultI-camera Feature Integration(MIFI)手法を提案する。
1)単純だが効果的なマルチカメラ機能統合フレームワークを提案し、3種類の機能融合技術を提供する。
2) 運転者行動認識における難易度不整合問題に対処するため, 簡便でハードなサンプルを共同学習できる例を例に, 周期学習法を提案する。
3MDADデータセットによる実験結果から,提案したMIFIはシングルビューモデルと比較して連続的に性能を向上できることが示された。
関連論文リスト
- DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文 参考訳(メタデータ) (2021-04-20T04:47:04Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。