論文の概要: AutoLay: Benchmarking amodal layout estimation for autonomous driving
- arxiv url: http://arxiv.org/abs/2108.09047v1
- Date: Fri, 20 Aug 2021 08:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 22:09:29.231701
- Title: AutoLay: Benchmarking amodal layout estimation for autonomous driving
- Title(参考訳): autolay: 自動運転のためのアモーダルレイアウト推定のベンチマーク
- Authors: Kaustubh Mani, N. Sai Shankar, Krishna Murthy Jatavallabhula and K.
Madhava Krishna
- Abstract要約: AutoLayはモノクロ画像からアモーダルレイアウトを推定するためのデータセットとベンチマークである。
また,車線,歩道,車両などの微粒な属性に加えて,意味的に注釈付けされた3次元点雲も提供する。
- 参考スコア(独自算出の注目度): 18.152206533685412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an image or a video captured from a monocular camera, amodal layout
estimation is the task of predicting semantics and occupancy in bird's eye
view. The term amodal implies we also reason about entities in the scene that
are occluded or truncated in image space. While several recent efforts have
tackled this problem, there is a lack of standardization in task specification,
datasets, and evaluation protocols. We address these gaps with AutoLay, a
dataset and benchmark for amodal layout estimation from monocular images.
AutoLay encompasses driving imagery from two popular datasets: KITTI and
Argoverse. In addition to fine-grained attributes such as lanes, sidewalks, and
vehicles, we also provide semantically annotated 3D point clouds. We implement
several baselines and bleeding edge approaches, and release our data and code.
- Abstract(参考訳): 単眼カメラから撮影した画像や映像が与えられた場合、アモーダルレイアウト推定は鳥の視線における意味や占有度を予測するタスクである。
amodalという用語は、シーン内のエンティティが画像空間に隠されたり、取り除かれたりする理由でもある。
この問題にいくつかの取り組みが取り組んできたが、タスク仕様、データセット、評価プロトコルの標準化が欠如している。
モノクロ画像からのアモーダルレイアウト推定のためのデータセットとベンチマークであるAutoLayを用いて,これらのギャップに対処する。
AutoLayは、KITTIとArgoverseという2つの一般的なデータセットからイメージを駆動する。
レーン,歩道,車両などの細かな属性に加えて,意味的にアノテートされた3dポイントクラウドも提供する。
いくつかのベースラインと最先端アプローチを実装し、データとコードを解放します。
関連論文リスト
- SUPS: A Simulated Underground Parking Scenario Dataset for Autonomous
Driving [41.221988979184665]
SUPSは地下自動駐車のシミュレーションデータセットである。
複数のセンサーと連続したイメージに合わせた複数のセマンティックラベルを備えた複数のタスクをサポートする。
また、我々のデータセット上で、最先端のSLAMアルゴリズムと知覚モデルを評価する。
論文 参考訳(メタデータ) (2023-02-25T02:59:12Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Sparse Semantic Map-Based Monocular Localization in Traffic Scenes Using
Learned 2D-3D Point-Line Correspondences [29.419138863851526]
クエリー画像が与えられた場合、カメラのポーズが先行マップに対応すると見積もることが目的である。
既存のアプローチは、登録問題を解決するために、機能レベルでの高密度な点記述子に大きく依存している。
本稿では,よく設計されたディープニューラルネットワークを用いて2D-3D登録を行う,スパースセマンティックマップに基づく単眼位置推定法を提案する。
論文 参考訳(メタデータ) (2022-10-10T10:29:07Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - MGNet: Monocular Geometric Scene Understanding for Autonomous Driving [10.438741209852209]
MGNetはモノクロ幾何学的シーン理解のためのマルチタスクフレームワークである。
我々は、単眼の幾何学的シーン理解を、パノプティカルセグメンテーションと自己教師付き単眼深度推定という2つの既知のタスクの組み合わせとして定義する。
我々のモデルは、単一のコンシューマグレードのGPU上で、リアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。
論文 参考訳(メタデータ) (2022-06-27T11:27:55Z) - Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via
Cross-modal Distillation [32.33170182669095]
本研究は,自動車が収集した生の非キュレートデータからのみ,手動のアノテーションを使わずに,都市景観における画素単位のセマンティックイメージのセマンティックセマンティックセマンティクスの学習について検討する。
本稿では,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T17:35:46Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z) - MonoLayout: Amodal scene layout from a single image [12.466845447851377]
運転プラットフォームから1枚のカラー画像が得られた場合,道路の鳥眼視線配置を予測することを目的としている。
我々はこの問題を,シーンレイアウトの「ハロシン化」を伴う,シーンレイアウト推定に用いている。
この目的のために,リアルタイムなアモーダルシーンレイアウト推定のためのディープニューラルネットワークMonoを提案する。
論文 参考訳(メタデータ) (2020-02-19T19:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。