論文の概要: Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.23965v1
- Date: Mon, 31 Mar 2025 11:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.360223
- Title: Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving
- Title(参考訳): Rockchip RV1126による自動運転のためのビデオベース交通光認識
- Authors: Miao Fan, Xuxu Kong, Shengtong Xu, Haoyi Xiong, Xiangzeng Liu,
- Abstract要約: リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
我々は、複数の連続するフレームを処理し、堅牢なトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークであるtextitViTLRを提案する。
我々は、自走運転用HDマップを用いて、TextitViTLRをエゴレーン交通信号認識システムに統合することに成功している。
- 参考スコア(独自算出の注目度): 19.468567166834585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time traffic light recognition is fundamental for autonomous driving safety and navigation in urban environments. While existing approaches rely on single-frame analysis from onboard cameras, they struggle with complex scenarios involving occlusions and adverse lighting conditions. We present \textit{ViTLR}, a novel video-based end-to-end neural network that processes multiple consecutive frames to achieve robust traffic light detection and state classification. The architecture leverages a transformer-like design with convolutional self-attention modules, which is optimized specifically for deployment on the Rockchip RV1126 embedded platform. Extensive evaluations on two real-world datasets demonstrate that \textit{ViTLR} achieves state-of-the-art performance while maintaining real-time processing capabilities (>25 FPS) on RV1126's NPU. The system shows superior robustness across temporal stability, varying target distances, and challenging environmental conditions compared to existing single-frame approaches. We have successfully integrated \textit{ViTLR} into an ego-lane traffic light recognition system using HD maps for autonomous driving applications. The complete implementation, including source code and datasets, is made publicly available to facilitate further research in this domain.
- Abstract(参考訳): リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
既存のアプローチでは、オンボードカメラからの単一フレーム分析に頼っているが、オクルージョンや不適切な照明条件を含む複雑なシナリオに悩まされている。
本稿では、複数の連続するフレームを処理し、ロバストなトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークである‘textit{ViTLR} を提案する。
このアーキテクチャは、Rockchip RV1126組み込みプラットフォームへのデプロイに特化して最適化された、畳み込み型のセルフアテンションモジュールを備えたトランスフォーマーのような設計を採用している。
2つの実世界のデータセットに対する大規模な評価は、RV1126のNPU上でのリアルタイム処理能力(>25 FPS)を維持しながら、‘textit{ViTLR}’が最先端のパフォーマンスを達成することを示している。
このシステムは, 時間的安定性, 目標距離の変化, 既存の単一フレームアプローチと比較して環境条件の難しさに優れる。
我々は,自走運転用HDマップを用いたego-lane交通信号認識システムに \textit{ViTLR} を組み込んだ。
ソースコードやデータセットを含む完全な実装は、この領域のさらなる研究を促進するために公開されています。
関連論文リスト
- The ATLAS of Traffic Lights: A Reliable Perception Framework for Autonomous Driving [9.932968493913357]
本稿では,最先端検出モデルと新たなリアルタイムアソシエーションと意思決定フレームワークを統合したモジュール化された認識フレームワークを提案する。
我々は、交通信号状態とピクトグラムの包括的なアノテーションを提供するATLASデータセットを紹介した。
我々は、ATLAS上のいくつかの最先端の信号検出アーキテクチャを訓練し、評価し、精度とロバスト性の両方において顕著な性能向上を示す。
論文 参考訳(メタデータ) (2025-04-28T12:15:42Z) - Real-Time Navigation for Autonomous Aerial Vehicles Using Video [11.414350041043326]
我々は,コンピュータビジョン(CV)アルゴリズムの作業量を削減するために,新しいマルコフ決定プロセス(MDP)フレームワークを導入する。
提案するフレームワークは,機能ベースとニューラルネットベースのオブジェクト検出タスクの両方に適用する。
これらの総合的なテストは、エネルギー消費と速度に大きな利点を示し、精度は限られている。
論文 参考訳(メタデータ) (2025-04-01T01:14:42Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Towards Real-Time 2D Mapping: Harnessing Drones, AI, and Computer Vision for Advanced Insights [0.0]
本稿では、ドローン画像と機械学習とコンピュータビジョンを組み合わせることで、様々な地形における速度、精度、適応性の課題を克服する高度マッピングシステムを提案する。
このシステムは、最小レイテンシでシームレスで高解像度の地図を生成し、防衛作戦において戦略的優位性を提供する。
論文 参考訳(メタデータ) (2024-12-28T16:47:18Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - Region of Interest (ROI) based adaptive cross-layer system for real-time
video streaming over Vehicular Ad-hoc NETworks (VANETs) [2.2124180701409233]
本稿では,車載環境下でのエンドツーエンドの映像伝送品質を向上させるアルゴリズムを提案する。
提案した低複雑性ソリューションは、関心のあるシーン領域に最優先する。
現実的なVANETシミュレーションの結果、HEVC圧縮ビデオ通信では、提案システムはROI部に最大11dBのPSNRゲインを提供する。
論文 参考訳(メタデータ) (2023-11-05T13:56:04Z) - FARSEC: A Reproducible Framework for Automatic Real-Time Vehicle Speed
Estimation Using Traffic Cameras [14.339217121537537]
ナビゲーションやロジスティクスなどの交通依存システムは、信頼性の高い速度推定の恩恵を受ける可能性がある。
我々は,公共交通カメラのより多様なデータに対処する,自動リアルタイム車両速度計算のための新しいフレームワークを提供する。
我々のフレームワークは、カメラの動きや異なるビデオストリーム入力などの現実的な条件を自動で処理できる。
論文 参考訳(メタデータ) (2023-09-25T19:02:40Z) - aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving
with Long-Range Perception [0.0]
このデータセットは、同期して校正されたLiDAR、カメラ、および360度の視野をカバーするレーダーセンサーを備えた176のシーンで構成されている。
収集したデータは、昼間、夜、雨の間に、高速道路、都市、郊外で撮影された。
我々は3次元物体検出のための一次元・多モードベースラインモデルを訓練した。
論文 参考訳(メタデータ) (2022-11-17T10:19:59Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。