論文の概要: IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers
- arxiv url: http://arxiv.org/abs/2410.02592v1
- Date: Thu, 10 Oct 2024 02:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:22:08.446815
- Title: IC3M: In-Car Multimodal Multi-object Monitoring for Abnormal Status of Both Driver and Passengers
- Title(参考訳): IC3M:車内マルチモーダルマルチオブジェクトモニタリングによる運転者・乗務員の異常状況の把握
- Authors: Zihan Fang, Zheng Lin, Senkang Hu, Hangcheng Cao, Yiqin Deng, Xianhao Chen, Yuguang Fang,
- Abstract要約: 運転者の早期異常を検知するための有望な技術として車内監視が登場している。
我々は車内でのドライバーと乗客の両方を監視するための効率的なカメラ回転に基づくマルチモーダル・フレームワークであるIC3Mを紹介した。
IC3Mは,適応しきい値の擬似ラベル戦略とモダリティの欠如という2つの重要なモジュールから構成される。
- 参考スコア(独自算出の注目度): 14.555198961422706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, in-car monitoring has emerged as a promising technology for detecting early-stage abnormal status of the driver and providing timely alerts to prevent traffic accidents. Although training models with multimodal data enhances the reliability of abnormal status detection, the scarcity of labeled data and the imbalance of class distribution impede the extraction of critical abnormal state features, significantly deteriorating training performance. Furthermore, missing modalities due to environment and hardware limitations further exacerbate the challenge of abnormal status identification. More importantly, monitoring abnormal health conditions of passengers, particularly in elderly care, is of paramount importance but remains underexplored. To address these challenges, we introduce our IC3M, an efficient camera-rotation-based multimodal framework for monitoring both driver and passengers in a car. Our IC3M comprises two key modules: an adaptive threshold pseudo-labeling strategy and a missing modality reconstruction. The former customizes pseudo-labeling thresholds for different classes based on the class distribution, generating class-balanced pseudo labels to guide model training effectively, while the latter leverages crossmodality relationships learned from limited labels to accurately recover missing modalities by distribution transferring from available modalities. Extensive experimental results demonstrate that IC3M outperforms state-of-the-art benchmarks in accuracy, precision, and recall while exhibiting superior robustness under limited labeled data and severe missing modality.
- Abstract(参考訳): 近年,運転者の早期異常を検知し,交通事故防止のためのタイムリーアラートを提供する技術として,車内監視が注目されている。
マルチモーダルデータを用いたトレーニングモデルは異常検出の信頼性を高めるが、ラベル付きデータの不足とクラス分布の不均衡は、重大な異常状態の特徴の抽出を妨げ、トレーニング性能を著しく低下させる。
さらに、環境やハードウェアの制約によるモダリティの欠如は、異常な状態同定の課題をさらに悪化させる。
さらに重要なことは、特に高齢者ケアにおける乗客の異常な健康状態のモニタリングが最重要であるが、未調査のままであることだ。
これらの課題に対処するために、車内のドライバーと乗客の両方を監視するための効率的なカメラ回転ベースのマルチモーダルフレームワークであるIC3Mを紹介した。
IC3Mは,適応しきい値の擬似ラベル戦略とモダリティの欠如という2つの重要なモジュールから構成される。
前者は、クラス分布に基づいて異なるクラスに対する擬似ラベル閾値をカスタマイズし、クラスバランスの擬似ラベルを生成してモデルトレーニングを効果的にガイドする。
IC3Mは, 精度, 精度, リコールにおいて, 限られたラベル付きデータの下で優れた堅牢性を示し, 高度に欠落したモダリティを示した。
関連論文リスト
- Efficient Mixture-of-Expert for Video-based Driver State and Physiological Multi-task Estimation in Conditional Autonomous Driving [12.765198683804094]
道路の安全は世界中で重要な課題であり、交通事故による死者は約135万人である。
VDMoEと呼ばれる新しいマルチタスクDMSを提案し、RGBビデオ入力を利用して運転状態を非侵襲的に監視する。
論文 参考訳(メタデータ) (2024-10-28T14:49:18Z) - Scalable Numerical Embeddings for Multivariate Time Series: Enhancing Healthcare Data Representation Learning [6.635084843592727]
独立トークンとして各特徴値を扱う新しいフレームワークであるSCANEを提案する。
SCANEは、異なる機能埋め込みの特性を正規化し、スケーラブルな埋め込みメカニズムを通じて表現学習を強化する。
本研究は,MTSの精度の高い予測出力を実現するために,nUMerical eMbeddIng Transformer (SUMMIT) を開発した。
論文 参考訳(メタデータ) (2024-05-26T13:06:45Z) - HCL-MTSAD: Hierarchical Contrastive Consistency Learning for Accurate Detection of Industrial Multivariate Time Series Anomalies [4.806959791183183]
本稿では,産業用MSSにおける異常検出のための自己教師付き階層的コントラスト整合学習手法を提案する。
HCL-MTSADはマルチレイヤのコントラスト損失を発生させることで、データの一貫性とタイムスタンプと時間的関連を広範囲にマイニングすることができる。
HCL-MTSADの異常検出能力は、F1スコアの平均1.8%で最先端のベンチマークモデルを上回っている。
論文 参考訳(メタデータ) (2024-04-12T03:39:33Z) - Generating and Reweighting Dense Contrastive Patterns for Unsupervised
Anomaly Detection [59.34318192698142]
我々は、先行のない異常発生パラダイムを導入し、GRADと呼ばれる革新的な教師なし異常検出フレームワークを開発した。
PatchDiffは、様々な種類の異常パターンを効果的に公開する。
MVTec ADとMVTec LOCOデータセットの両方の実験も、前述の観測をサポートする。
論文 参考訳(メタデータ) (2023-12-26T07:08:06Z) - Unraveling the "Anomaly" in Time Series Anomaly Detection: A
Self-supervised Tri-domain Solution [89.16750999704969]
異常ラベルは時系列異常検出において従来の教師付きモデルを妨げる。
自己教師型学習のような様々なSOTA深層学習技術がこの問題に対処するために導入されている。
自己教師型3領域異常検出器(TriAD)を提案する。
論文 参考訳(メタデータ) (2023-11-19T05:37:18Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate
Time Series Data [13.864161788250856]
TranADはディープトランスネットワークに基づく異常検出および診断モデルである。
注意に基づくシーケンスエンコーダを使用して、データ内のより広い時間的傾向の知識を迅速に推論する。
TranADは、データと時間効率のトレーニングによる検出と診断のパフォーマンスにおいて、最先端のベースラインメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-01-18T19:41:29Z) - Enhancing Unsupervised Anomaly Detection with Score-Guided Network [13.127091975959358]
異常検出は、医療や金融システムなど、さまざまな現実世界のアプリケーションにおいて重要な役割を担っている。
正規データと異常データの間の異常スコアの差を学習・拡大するために,スコア誘導正規化を用いた新しいスコアネットワークを提案する。
次に,スコア誘導型オートエンコーダ(SG-AE)を提案する。
論文 参考訳(メタデータ) (2021-09-10T06:14:53Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。