論文の概要: Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.23965v1
- Date: Mon, 31 Mar 2025 11:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:33:39.895765
- Title: Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving
- Title(参考訳): Rockchip RV1126による自動運転のためのビデオベース交通光認識
- Authors: Miao Fan, Xuxu Kong, Shengtong Xu, Haoyi Xiong, Xiangzeng Liu,
- Abstract要約: リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
我々は、複数の連続するフレームを処理し、堅牢なトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークであるtextitViTLRを提案する。
我々は、自走運転用HDマップを用いて、TextitViTLRをエゴレーン交通信号認識システムに統合することに成功している。
- 参考スコア(独自算出の注目度): 19.468567166834585
- License:
- Abstract: Real-time traffic light recognition is fundamental for autonomous driving safety and navigation in urban environments. While existing approaches rely on single-frame analysis from onboard cameras, they struggle with complex scenarios involving occlusions and adverse lighting conditions. We present \textit{ViTLR}, a novel video-based end-to-end neural network that processes multiple consecutive frames to achieve robust traffic light detection and state classification. The architecture leverages a transformer-like design with convolutional self-attention modules, which is optimized specifically for deployment on the Rockchip RV1126 embedded platform. Extensive evaluations on two real-world datasets demonstrate that \textit{ViTLR} achieves state-of-the-art performance while maintaining real-time processing capabilities (>25 FPS) on RV1126's NPU. The system shows superior robustness across temporal stability, varying target distances, and challenging environmental conditions compared to existing single-frame approaches. We have successfully integrated \textit{ViTLR} into an ego-lane traffic light recognition system using HD maps for autonomous driving applications. The complete implementation, including source code and datasets, is made publicly available to facilitate further research in this domain.
- Abstract(参考訳): リアルタイムの交通信号認識は、都市環境における自動運転の安全性とナビゲーションに不可欠である。
既存のアプローチでは、オンボードカメラからの単一フレーム分析に頼っているが、オクルージョンや不適切な照明条件を含む複雑なシナリオに悩まされている。
本稿では、複数の連続するフレームを処理し、ロバストなトラフィック光検出と状態分類を実現する、ビデオベースの新しいエンドツーエンドニューラルネットワークである‘textit{ViTLR} を提案する。
このアーキテクチャは、Rockchip RV1126組み込みプラットフォームへのデプロイに特化して最適化された、畳み込み型のセルフアテンションモジュールを備えたトランスフォーマーのような設計を採用している。
2つの実世界のデータセットに対する大規模な評価は、RV1126のNPU上でのリアルタイム処理能力(>25 FPS)を維持しながら、‘textit{ViTLR}’が最先端のパフォーマンスを達成することを示している。
このシステムは, 時間的安定性, 目標距離の変化, 既存の単一フレームアプローチと比較して環境条件の難しさに優れる。
我々は,自走運転用HDマップを用いたego-lane交通信号認識システムに \textit{ViTLR} を組み込んだ。
ソースコードやデータセットを含む完全な実装は、この領域のさらなる研究を促進するために公開されています。
関連論文リスト
- Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - Region of Interest (ROI) based adaptive cross-layer system for real-time
video streaming over Vehicular Ad-hoc NETworks (VANETs) [2.2124180701409233]
本稿では,車載環境下でのエンドツーエンドの映像伝送品質を向上させるアルゴリズムを提案する。
提案した低複雑性ソリューションは、関心のあるシーン領域に最優先する。
現実的なVANETシミュレーションの結果、HEVC圧縮ビデオ通信では、提案システムはROI部に最大11dBのPSNRゲインを提供する。
論文 参考訳(メタデータ) (2023-11-05T13:56:04Z) - FARSEC: A Reproducible Framework for Automatic Real-Time Vehicle Speed
Estimation Using Traffic Cameras [14.339217121537537]
ナビゲーションやロジスティクスなどの交通依存システムは、信頼性の高い速度推定の恩恵を受ける可能性がある。
我々は,公共交通カメラのより多様なデータに対処する,自動リアルタイム車両速度計算のための新しいフレームワークを提供する。
我々のフレームワークは、カメラの動きや異なるビデオストリーム入力などの現実的な条件を自動で処理できる。
論文 参考訳(メタデータ) (2023-09-25T19:02:40Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving
with Long-Range Perception [0.0]
このデータセットは、同期して校正されたLiDAR、カメラ、および360度の視野をカバーするレーダーセンサーを備えた176のシーンで構成されている。
収集したデータは、昼間、夜、雨の間に、高速道路、都市、郊外で撮影された。
我々は3次元物体検出のための一次元・多モードベースラインモデルを訓練した。
論文 参考訳(メタデータ) (2022-11-17T10:19:59Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - TL-GAN: Improving Traffic Light Recognition via Data Synthesis for
Autonomous Driving [8.474436072102844]
本稿では,交通信号の自律運転における音声認識を改善するために,レアクラスのデータを合成するための新しい交通信号生成手法TL-GANを提案する。
画像合成段階では、条件付き生成により、生成したトラフィック光画像の色を完全に制御できる。
シーケンス組み立て段階では、現実的で多様なトラフィック光シーケンスを合成するためのスタイル混合および適応テンプレートを設計する。
論文 参考訳(メタデータ) (2022-03-28T18:12:35Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。