論文の概要: Audio and Multiscale Visual Cues Driven Cross-modal Transformer for Idling Vehicle Detection
- arxiv url: http://arxiv.org/abs/2504.16102v1
- Date: Tue, 15 Apr 2025 21:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.827773
- Title: Audio and Multiscale Visual Cues Driven Cross-modal Transformer for Idling Vehicle Detection
- Title(参考訳): アイドリング車両検出のためのオーディオおよびマルチスケール視覚キュー駆動クロスモーダルトランス
- Authors: Xiwen Li, Ross Whitaker, Tolga Tasdizen,
- Abstract要約: アイドリング車両検出(IVD)は、過度のアイドリング行動を抑制するために動的メッセージングドライバによって汚染や排出を減らすリアルタイムシステムをサポートする。
コンピュータービジョンにおいて、IVDは、監視カメラとリモートマイクからのオーディオのビデオを利用して、各フレーム内の車両を移動、アイドリング、エンジンオフとしてローカライズし、分類する新しいタスクとなっている。
本稿では,トランスフォーマに基づくエンドツーエンド検出ネットワークであるAVIVDNetv2を提案する。グローバルパッチレベルの学習,マルチスケール視覚特徴融合モジュール,デカップリングされた検出ヘッドを備えたクロスモーダルトランスフォーマを備える。
- 参考スコア(独自算出の注目度): 1.2699007098398802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Idling vehicle detection (IVD) supports real-time systems that reduce pollution and emissions by dynamically messaging drivers to curb excess idling behavior. In computer vision, IVD has become an emerging task that leverages video from surveillance cameras and audio from remote microphones to localize and classify vehicles in each frame as moving, idling, or engine-off. As with other cross-modal tasks, the key challenge lies in modeling the correspondence between audio and visual modalities, which differ in representation but provide complementary cues -- video offers spatial and motion context, while audio conveys engine activity beyond the visual field. The previous end-to-end model, which uses a basic attention mechanism, struggles to align these modalities effectively, often missing vehicle detections. To address this issue, we propose AVIVDNetv2, a transformer-based end-to-end detection network. It incorporates a cross-modal transformer with global patch-level learning, a multiscale visual feature fusion module, and decoupled detection heads. Extensive experiments show that AVIVDNetv2 improves mAP by 7.66 over the disjoint baseline and 9.42 over the E2E baseline, with consistent AP gains across all vehicle categories. Furthermore, AVIVDNetv2 outperforms the state-of-the-art method for sounding object localization, establishing a new performance benchmark on the AVIVD dataset.
- Abstract(参考訳): アイドリング車両検出(IVD)は、過度のアイドリング行動を抑制するために動的メッセージングドライバによって汚染や排出を減らすリアルタイムシステムをサポートする。
コンピュータービジョンにおいて、IVDは、監視カメラとリモートマイクからのオーディオのビデオを利用して、各フレーム内の車両を移動、アイドリング、エンジンオフとしてローカライズし、分類する新しいタスクとなっている。
他のクロスモーダルタスクと同様に、重要な課題は、音声と視覚のモダリティの対応をモデル化することである。
従来のエンド・ツー・エンドモデルは基本的な注意機構を使用しており、これらのモダリティを効果的に調整するのに苦労しており、しばしば車両検出が欠落している。
そこで本研究では,変換器を用いたエンドツーエンド検出ネットワークであるAVIVDNetv2を提案する。
グローバルなパッチレベルの学習、マルチスケールの視覚的特徴融合モジュール、分離された検出ヘッドを備えたクロスモーダルトランスフォーマーが組み込まれている。
大規模な実験により、AVIVDNetv2は分離基線を7.66倍、E2E基線を9.42倍改善し、全ての車種でAPが一貫した上昇を示した。
さらに、AVIVDNetv2は、オブジェクトローカライゼーションの最先端メソッドよりも優れており、AVIVDデータセット上で新しいパフォーマンスベンチマークが確立されている。
関連論文リスト
- Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Joint Audio-Visual Idling Vehicle Detection with Streamlined Input Dependencies [2.8517252798391177]
アイドリング車両検出は、不要なアイドリングの監視と低減に有用である。
本稿では,エンドツーエンドの音声-視覚的IVDタスクを提案する。
音声-視覚的車両追跡のような機能共起タスクとは異なり、我々のIVDタスクは相補的な機能に対処する。
論文 参考訳(メタデータ) (2024-10-28T16:13:44Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。
従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。
提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-07T15:47:19Z) - Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer [12.398902878803034]
本稿では,運転動作の分析を目的としたGAF-ViTモデルを提案する。
提案したViTモデルは、Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-21T04:24:30Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。