論文の概要: Cross-View Cross-Modal Unsupervised Domain Adaptation for Driver Monitoring System
- arxiv url: http://arxiv.org/abs/2511.12196v1
- Date: Sat, 15 Nov 2025 13:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.665597
- Title: Cross-View Cross-Modal Unsupervised Domain Adaptation for Driver Monitoring System
- Title(参考訳): ドライバモニタリングシステムのためのクロスビュー・クロスモーダル非教師付きドメイン適応
- Authors: Aditi Bhalla, Christian Hellert, Enkelejda Kasneci,
- Abstract要約: ドライバーの気晴らしは依然として道路交通事故の主要な原因であり、世界中で毎年数千人の死者を出している。
深層学習に基づく運転行動認識手法は,このような注意散逸を検出する上で有望であるが,現実の展開におけるその有効性は2つの重要な課題によって妨げられている。
本稿では,この課題をリアルタイム運転監視データと協調的に解決する,2段階のクロスビュー・クロスモーダルなドメイン適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.688427092651914
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Driver distraction remains a leading cause of road traffic accidents, contributing to thousands of fatalities annually across the globe. While deep learning-based driver activity recognition methods have shown promise in detecting such distractions, their effectiveness in real-world deployments is hindered by two critical challenges: variations in camera viewpoints (cross-view) and domain shifts such as change in sensor modality or environment. Existing methods typically address either cross-view generalization or unsupervised domain adaptation in isolation, leaving a gap in the robust and scalable deployment of models across diverse vehicle configurations. In this work, we propose a novel two-phase cross-view, cross-modal unsupervised domain adaptation framework that addresses these challenges jointly on real-time driver monitoring data. In the first phase, we learn view-invariant and action-discriminative features within a single modality using contrastive learning on multi-view data. In the second phase, we perform domain adaptation to a new modality using information bottleneck loss without requiring any labeled data from the new domain. We evaluate our approach using state-of-the art video transformers (Video Swin, MViT) and multi modal driver activity dataset called Drive&Act, demonstrating that our joint framework improves top-1 accuracy on RGB video data by almost 50% compared to a supervised contrastive learning-based cross-view method, and outperforms unsupervised domain adaptation-only methods by up to 5%, using the same video transformer backbone.
- Abstract(参考訳): ドライバーの気晴らしは依然として道路交通事故の主要な原因であり、世界中で毎年数千人の死者を出している。
深層学習に基づく運転行動認識手法は、このような注意散らしを検知する可能性を示しているが、現実の展開におけるそれらの効果は、カメラ視点の変化(クロスビュー)と、センサーのモダリティの変化や環境の変化のようなドメインシフトの2つの重要な課題によって妨げられている。
既存の手法は通常、クロスビューの一般化または教師なしのドメイン適応の分離に対処し、多様な車両構成にまたがる堅牢でスケーラブルなモデルの配置にギャップを残している。
本研究では,この課題をリアルタイム運転監視データと協調的に解決する,新しい2段階のクロスビュー・クロスモーダル・アン教師なしドメイン適応フレームワークを提案する。
第1フェーズでは、マルチビューデータに対するコントラスト学習を用いて、単一のモダリティ内でビュー不変性とアクション識別の特徴を学習する。
第2フェーズでは、新しいドメインからのラベル付きデータを必要とせずに、情報のボトルネック損失を利用して新しいモダリティにドメイン適応を行う。
我々は,最先端のビデオトランスフォーマー (Video Swin, MViT) とマルチモーダルドライバアクティビティデータセット (Drive&Act) を用いて,RGBビデオデータのトップ1の精度を,教師付きコントラスト学習によるクロスビュー手法と比較して50%近く向上し,教師なし領域適応のみの手法を最大5%向上することを示した。
関連論文リスト
- DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。
まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。
次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:49:10Z) - Towards Full-scene Domain Generalization in Multi-agent Collaborative Bird's Eye View Segmentation for Connected and Autonomous Driving [49.03947018718156]
協調的な知覚の訓練と推論の段階で利用される統合されたドメイン一般化フレームワークを提案する。
また、システム内ドメインアライメント機構を導入し、コネクテッドおよび自律走行車間のドメインの差を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - Cross-Domain Car Detection Model with Integrated Convolutional Block
Attention Mechanism [3.3843451892622576]
統合畳み込みブロックアテンション機構を用いたクロスドメイン車目標検出モデルを提案する。
実験の結果,我々のフレームワークを使わずに,モデルの性能が40%向上したことがわかった。
論文 参考訳(メタデータ) (2023-05-31T17:28:13Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception [30.113617846516398]
DualCrossは、より堅牢なBEV知覚モデルの学習を容易にする、クロスモダリティのクロスドメイン適応フレームワークである。
この研究は、クロスドメイン・クロスセンサーの認識と野生における単分子3Dタスクへの適応を初めてオープンに解析する結果となった。
論文 参考訳(メタデータ) (2023-05-05T17:58:45Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。
既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。
我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文 参考訳(メタデータ) (2021-07-23T17:19:23Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。