論文の概要: Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D
- arxiv url: http://arxiv.org/abs/2008.05711v1
- Date: Thu, 13 Aug 2020 06:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:12:45.104024
- Title: Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D
- Title(参考訳): リフット、スプラッター、シュート:3Dに射影して任意カメラから画像をエンコードする
- Authors: Jonah Philion, Sanja Fidler
- Abstract要約: 本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
- 参考スコア(独自算出の注目度): 100.93808824091258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of perception for autonomous vehicles is to extract semantic
representations from multiple sensors and fuse these representations into a
single "bird's-eye-view" coordinate frame for consumption by motion planning.
We propose a new end-to-end architecture that directly extracts a
bird's-eye-view representation of a scene given image data from an arbitrary
number of cameras. The core idea behind our approach is to "lift" each image
individually into a frustum of features for each camera, then "splat" all
frustums into a rasterized bird's-eye-view grid. By training on the entire
camera rig, we provide evidence that our model is able to learn not only how to
represent images but how to fuse predictions from all cameras into a single
cohesive representation of the scene while being robust to calibration error.
On standard bird's-eye-view tasks such as object segmentation and map
segmentation, our model outperforms all baselines and prior work. In pursuit of
the goal of learning dense representations for motion planning, we show that
the representations inferred by our model enable interpretable end-to-end
motion planning by "shooting" template trajectories into a bird's-eye-view cost
map output by our network. We benchmark our approach against models that use
oracle depth from lidar. Project page with code:
https://nv-tlabs.github.io/lift-splat-shoot .
- Abstract(参考訳): 自動運転車の目標は、複数のセンサーから意味表現を抽出し、これらの表現を単一の「鳥の目視」座標フレームに融合して、運動計画によって消費することである。
任意の数のカメラから与えられた画像データから鳥の目視表現を直接抽出する新しいエンドツーエンドアーキテクチャを提案する。
私たちのアプローチの中核となるアイデアは、それぞれの画像をそれぞれのカメラの機能に個別に“リフト”し、すべてのフラストラムをラスタライズした鳥の目線グリッドに“プレート”することです。
カメラリグ全体をトレーニングすることにより、我々のモデルは画像の表現方法だけでなく、全てのカメラからの予測を一括表現に融合させる方法を学ぶことができ、キャリブレーション誤差に頑健であることを示す。
オブジェクトのセグメンテーションやマップセグメンテーションといった標準的な鳥の目視タスクでは、我々のモデルはすべてのベースラインと先行作業より優れています。
動き計画のための高密度な表現を学習する目的を追求するために,我々のネットワークが出力する鳥の目視コストマップにテンプレートトラジェクトリを"撮影"することで,モデルが推論した表現を解釈できることを示す。
ライダーからオラクルの深さを利用するモデルに対して、我々のアプローチをベンチマークします。
コード付きプロジェクトページ: https://nv-tlabs.github.io/lift-splat- shoot
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic
Segmentation [43.12994451281451]
複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダデコーダである'LaRa'を提案する。
我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを用いています。
論文 参考訳(メタデータ) (2022-06-27T13:37:50Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - Footprints and Free Space from a Single Color Image [32.57664001590537]
入力として1つのRGB画像が与えられた場合、可視面と隠蔽面の両方の形状を予測するモデルを導入する。
ステレオビデオシーケンスから、カメラポーズ、フレームごとの深さ、セマンティックセグメンテーションを用いて学習し、トレーニングデータを形成する。
トレーニングシーンの空間的カバレッジには驚くほど低いバーが必要であることが分かりました。
論文 参考訳(メタデータ) (2020-04-14T09:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。