論文の概要: Joint Audio-Visual Idling Vehicle Detection with Streamlined Input Dependencies
- arxiv url: http://arxiv.org/abs/2410.21170v1
- Date: Mon, 28 Oct 2024 16:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:16.553885
- Title: Joint Audio-Visual Idling Vehicle Detection with Streamlined Input Dependencies
- Title(参考訳): 入力の流線形依存性を考慮した統合型オーディオ・ビジュアルアイドリング車検出
- Authors: Xiwen Li, Rehman Mohammed, Tristalee Mangin, Surojit Saha, Ross T Whitaker, Kerry E. Kelly, Tolga Tasdizen,
- Abstract要約: アイドリング車両検出は、不要なアイドリングの監視と低減に有用である。
本稿では,エンドツーエンドの音声-視覚的IVDタスクを提案する。
音声-視覚的車両追跡のような機能共起タスクとは異なり、我々のIVDタスクは相補的な機能に対処する。
- 参考スコア(独自算出の注目度): 2.8517252798391177
- License:
- Abstract: Idling vehicle detection (IVD) can be helpful in monitoring and reducing unnecessary idling and can be integrated into real-time systems to address the resulting pollution and harmful products. The previous approach [13], a non-end-to-end model, requires extra user clicks to specify a part of the input, making system deployment more error-prone or even not feasible. In contrast, we introduce an end-to-end joint audio-visual IVD task designed to detect vehicles visually under three states: moving, idling and engine off. Unlike feature co-occurrence task such as audio-visual vehicle tracking, our IVD task addresses complementary features, where labels cannot be determined by a single modality alone. To this end, we propose AVIVD-Net, a novel network that integrates audio and visual features through a bidirectional attention mechanism. AVIVD-Net streamlines the input process by learning a joint feature space, reducing the deployment complexity of previous methods. Additionally, we introduce the AVIVD dataset, which is seven times larger than previous datasets, offering significantly more annotated samples to study the IVD problem. Our model achieves performance comparable to prior approaches, making it suitable for automated deployment. Furthermore, by evaluating AVIVDNet on the feature co-occurrence public dataset MAVD [23], we demonstrate its potential for extension to self-driving vehicle video-camera setups.
- Abstract(参考訳): アイドリング車両検出(IVD)は、不要なアイドリングの監視と低減に役立ち、結果として生じる汚染や有害な製品に対処するためにリアルタイムシステムに統合することができる。
以前のアプローチである[13]は、エンド・ツー・エンドのモデルで、入力の一部を指定するために追加のユーザークリックを必要としており、システムデプロイメントがエラーを起こしやすいか、実現不可能です。
対照的に、我々は、移動、アイドリング、エンジンオフという3つの状態下で車両を視覚的に検出する、エンドツーエンドのジョイントオーディオ視覚IVDタスクを導入する。
音声-視覚的車両追跡のような特徴共起タスクとは異なり、我々のIVDタスクは1つのモダリティだけでラベルを決定できない相補的な特徴に対処する。
そこで本稿では,双方向アテンション機構を通じて音声と視覚機能を統合する新しいネットワークであるAVIVD-Netを提案する。
AVIVD-Netは、結合した特徴空間を学習することで入力プロセスの合理化を図り、従来の手法の展開複雑性を低減した。
さらに、従来のデータセットの7倍の大きさのAVIVDデータセットを導入し、IVD問題を研究するために、よりアノテートされたサンプルを提供する。
我々のモデルは、従来のアプローチに匹敵するパフォーマンスを実現し、自動デプロイメントに適している。
さらに、AVIVDNetを機能共起公開データセットMAVD[23]で評価することにより、自動運転車のビデオカメラのセットアップの拡張の可能性を示す。
関連論文リスト
- Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - DOLPHINS: Dataset for Collaborative Perception enabled Harmonious and
Interconnected Self-driving [19.66714697653504]
V2Xネットワークは、自動運転における協調的な認識を可能にしている。
データセットの欠如は、協調認識アルゴリズムの開発を著しく妨げている。
DOLPHINS: cOllaborative Perception を実現するためのデータセットである Harmonious と Inter connected Self-driving をリリースする。
論文 参考訳(メタデータ) (2022-07-15T17:07:07Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。