論文の概要: HawkDrive: A Transformer-driven Visual Perception System for Autonomous Driving in Night Scene
- arxiv url: http://arxiv.org/abs/2404.04653v1
- Date: Sat, 6 Apr 2024 15:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:09:57.377894
- Title: HawkDrive: A Transformer-driven Visual Perception System for Autonomous Driving in Night Scene
- Title(参考訳): HawkDrive:夜間の自動運転のためのトランスフォーマー駆動型視覚知覚システム
- Authors: Ziang Guo, Stepan Perminov, Mikhail Konenkov, Dzmitry Tsetserukou,
- Abstract要約: HawkDriveは、ハードウェアとソフトウェアソリューションを備えた新しいビジョンシステムである。
立体視認識を利用するハードウェアは、エッジコンピューティングデバイスNvidia Jetson Xavier AGXと提携している。
低光強調、深度推定、セマンティックセグメンテーションタスクのためのソフトウェアは、トランスフォーマーベースのニューラルネットワークである。
- 参考スコア(独自算出の注目度): 2.5022287664959446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many established vision perception systems for autonomous driving scenarios ignore the influence of light conditions, one of the key elements for driving safety. To address this problem, we present HawkDrive, a novel perception system with hardware and software solutions. Hardware that utilizes stereo vision perception, which has been demonstrated to be a more reliable way of estimating depth information than monocular vision, is partnered with the edge computing device Nvidia Jetson Xavier AGX. Our software for low light enhancement, depth estimation, and semantic segmentation tasks, is a transformer-based neural network. Our software stack, which enables fast inference and noise reduction, is packaged into system modules in Robot Operating System 2 (ROS2). Our experimental results have shown that the proposed end-to-end system is effective in improving the depth estimation and semantic segmentation performance. Our dataset and codes will be released at https://github.com/ZionGo6/HawkDrive.
- Abstract(参考訳): 自律運転シナリオのための多くの確立された視覚認識システムは、運転安全の重要な要素である光条件の影響を無視している。
この問題に対処するため,ハードウェアとソフトウェアを併用した新しい認識システムであるHawkDriveを提案する。
立体視知覚を利用するハードウェアは、単眼視よりも深度情報を推定する信頼性の高い方法として実証されており、エッジコンピューティングデバイスNvidia Jetson Xavier AGXとパートナーしている。
低光強調、深度推定、セマンティックセグメンテーションタスクのためのソフトウェアは、トランスフォーマーベースのニューラルネットワークである。
高速な推論とノイズ低減を可能にするソフトウェアスタックは,ロボットオペレーティングシステム2(ROS2)のシステムモジュールにパッケージ化されている。
実験結果から,提案手法は深度推定とセマンティックセグメンテーション性能の向上に有効であることがわかった。
データセットとコードはhttps://github.com/ZionGo6/HawkDrive.comでリリースされます。
関連論文リスト
- Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスクを訓練した共有エンコーダを提案する。
ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。
その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - YOLOP: You Only Look Once for Panoptic Driving Perception [21.802146960999394]
本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。
特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。
私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。
論文 参考訳(メタデータ) (2021-08-25T14:19:42Z) - Provident Vehicle Detection at Night for Advanced Driver Assistance
Systems [3.7468898363447654]
本報告では, 夜間に来るべき車両を, 発生した光成果物に基づいて検出するシステムについて述べる。
本研究では,提案システムが提供する時間的メリットを,実稼働型コンピュータビジョンシステムと比較して定量化する。
論文 参考訳(メタデータ) (2021-07-23T15:27:17Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Sensor Fusion of Camera and Cloud Digital Twin Information for
Intelligent Vehicles [26.00647601539363]
クラウドからカメラ画像とDigital Twinの知識を統合する新しいセンサ融合手法を提案する。
最適なマッチング結果は、0.7インターセクション・オーバー・ユニオン(IoU)閾値以下で79.2%の精度で得られ、奥行き画像が付加的な特徴源として提供される。
ゲームエンジンをベースとしたシミュレーションの結果、視覚誘導システムにより運転安全性が向上し、クラウドのDigital Twinシステムと大幅に協調することが判明した。
論文 参考訳(メタデータ) (2020-07-08T18:09:54Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z) - End-to-end Autonomous Driving Perception with Sequential Latent
Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。
潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。
学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文 参考訳(メタデータ) (2020-03-21T05:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。