論文の概要: Interpretable End-to-End Driving Model for Implicit Scene Understanding
- arxiv url: http://arxiv.org/abs/2308.01180v1
- Date: Wed, 2 Aug 2023 14:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:41:56.242351
- Title: Interpretable End-to-End Driving Model for Implicit Scene Understanding
- Title(参考訳): 暗黙的シーン理解のための解釈可能なエンド・ツー・エンド駆動モデル
- Authors: Yiyang Sun, Xiaonian Wang, Yangyang Zhang, Jiagui Tang, Xiaqiang Tang,
Jing Yao
- Abstract要約: 暗黙的な高次元シーン特徴を抽出するエンド・ツー・エンドのインプリケート・インプリケート・ドライビング・シーン理解(II-DSU)モデルを提案する。
提案手法は,新しい最先端技術を実現し,運転に関連するよりリッチなシーン情報を具現化したシーン特徴を得ることができる。
- 参考スコア(独自算出の注目度): 3.4248756007722987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driving scene understanding is to obtain comprehensive scene information
through the sensor data and provide a basis for downstream tasks, which is
indispensable for the safety of self-driving vehicles. Specific perception
tasks, such as object detection and scene graph generation, are commonly used.
However, the results of these tasks are only equivalent to the characterization
of sampling from high-dimensional scene features, which are not sufficient to
represent the scenario. In addition, the goal of perception tasks is
inconsistent with human driving that just focuses on what may affect the
ego-trajectory. Therefore, we propose an end-to-end Interpretable Implicit
Driving Scene Understanding (II-DSU) model to extract implicit high-dimensional
scene features as scene understanding results guided by a planning module and
to validate the plausibility of scene understanding using auxiliary perception
tasks for visualization. Experimental results on CARLA benchmarks show that our
approach achieves the new state-of-the-art and is able to obtain scene features
that embody richer scene information relevant to driving, enabling superior
performance of the downstream planning.
- Abstract(参考訳): 運転シーン理解は、センサデータを通じて総合的なシーン情報を取得し、自動運転車の安全性に欠かせない下流タスクの基礎を提供する。
オブジェクト検出やシーングラフ生成などの特定の知覚タスクが一般的に使用される。
しかし、これらのタスクの結果は、シナリオを表現するのに十分ではない高次元のシーンの特徴からサンプリングする特性と等価である。
さらに、知覚タスクの目標は、エゴ軌道に影響を与える可能性のあるものだけに焦点を当てた人間の運転と矛盾する。
そこで,我々は,計画モジュールで案内されたシーン理解結果として暗黙の高次元特徴を抽出し,補助知覚タスクを用いてシーン理解の可能性を検証するため,エンドツーエンドで解釈可能な暗黙的シーン理解モデル(ii-dsu)を提案する。
CARLAベンチマークによる実験結果から,本手法は新たな最先端技術を実現し,よりリッチなシーン情報を具現化して,下流計画の優れた性能を実現することができることがわかった。
関連論文リスト
- PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network [23.38434020807342]
交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)における重要な課題の1つである。
現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。
グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案し、様々な下流タスクをサポートするために、交通シーンの普遍的相互作用と推論を学習する。
論文 参考訳(メタデータ) (2024-04-16T03:34:35Z) - Concretization of Abstract Traffic Scene Specifications Using Metaheuristic Search [1.9307952728103126]
AVのシナリオベースのテストに向けた第一歩として、トラフィックシナリオの初期シーンを減らさなければならない。
本稿では,車両を現実的な道路地図上に配置し,一連の抽象的制約を満たす交通シーンの促進手法を提案する。
提案手法の8つの構成を,最先端のScenicツールの3つのバリエーションと比較するために,現実的な3つの道路地図上で一連の実験を行った。
論文 参考訳(メタデータ) (2023-07-15T15:13:16Z) - Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos [29.529768377746194]
本稿では,CLIPに基づく運転行動認識手法を提案する。
以上の結果から、このフレームワークは、ゼロショット転送における最先端のパフォーマンスと、2つの公開データセット上でドライバの状態を予測するためのビデオベースCLIPを提供する。
論文 参考訳(メタデータ) (2023-06-16T20:02:51Z) - Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Learning Road Scene-level Representations via Semantic Region Prediction [11.518756759576657]
自動走行システムにおける2つの重要な課題、すなわち運転意図予測と自我中心画像からの危険物体識別に取り組む。
我々は、シーンレベルの表現は、エゴ車両周辺の交通シーンの高レベルな意味的および幾何学的表現を捉える必要があると論じる。
本稿では,新しい意味領域予測タスクと自動意味領域ラベリングアルゴリズムを用いてシーンレベルの表現を学習する。
論文 参考訳(メタデータ) (2023-01-02T15:13:30Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - An Image-based Approach of Task-driven Driving Scene Categorization [7.291979964739049]
本稿では,弱監督データを用いたタスク駆動運転場面分類手法を提案する。
異なるセマンティック属性のシーンを対比学習によって識別する尺度を学習する。
セマンティックシーン類似性学習とドライビングシーン分類の結果を広範囲に研究した。
論文 参考訳(メタデータ) (2021-03-10T08:23:36Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。