論文の概要: JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes
- arxiv url: http://arxiv.org/abs/2207.07895v1
- Date: Sat, 16 Jul 2022 10:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:44:36.632094
- Title: JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes
- Title(参考訳): JPerceiver:運転シーンにおける深さ・姿勢・レイアウト推定のための共同知覚ネットワーク
- Authors: Haimei Zhao, Jing Zhang, Sen Zhang, Dacheng Tao
- Abstract要約: JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 75.20435924081585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation, visual odometry (VO), and bird's-eye-view (BEV) scene
layout estimation present three critical tasks for driving scene perception,
which is fundamental for motion planning and navigation in autonomous driving.
Though they are complementary to each other, prior works usually focus on each
individual task and rarely deal with all three tasks together. A naive way is
to accomplish them independently in a sequential or parallel manner, but there
are many drawbacks, i.e., 1) the depth and VO results suffer from the inherent
scale ambiguity issue; 2) the BEV layout is directly predicted from the
front-view image without using any depth-related information, although the
depth map contains useful geometry clues for inferring scene layouts. In this
paper, we address these issues by proposing a novel joint perception framework
named JPerceiver, which can simultaneously estimate scale-aware depth and VO as
well as BEV layout from a monocular video sequence. It exploits the cross-view
geometric transformation (CGT) to propagate the absolute scale from the road
layout to depth and VO based on a carefully-designed scale loss. Meanwhile, a
cross-view and cross-modal transfer (CCT) module is devised to leverage the
depth clues for reasoning road and vehicle layout through an attention
mechanism. JPerceiver can be trained in an end-to-end multi-task learning way,
where the CGT scale loss and CCT module promote inter-task knowledge transfer
to benefit feature learning of each task. Experiments on Argoverse, Nuscenes
and KITTI show the superiority of JPerceiver over existing methods on all the
above three tasks in terms of accuracy, model size, and inference speed. The
code and models are available
at~\href{https://github.com/sunnyHelen/JPerceiver}{https://github.com/sunnyHelen/JPerceiver}.
- Abstract(参考訳): 奥行き推定,ビジュアル・オドメトリー(VO),鳥眼視(BEV)シーンレイアウト推定は,自律走行における動作計画とナビゲーションの基礎となる3つの重要な課題である。
それらは互いに補完的だが、以前の作業は通常個々のタスクに集中し、3つのタスクすべてを一緒に扱うことは滅多にない。
ナイーブな方法は、シーケンシャルまたは並列な方法でそれらを独立に達成することであるが、多くの欠点がある。
1) 深度及びVO結果は,本質的な規模あいまいさの問題に悩まされる。
2) 深度マップはシーンレイアウトの推測に有用な幾何学的手がかりを含むが, 深度関連情報を用いることなく, 前面画像からBEVレイアウトを直接予測する。
本稿では,jperceiverという新たな統合知覚フレームワークを提案し,単眼映像列からスケール認識深度とvo,およびbevレイアウトを同時に推定する手法を提案する。
クロスビュー幾何変換(CGT)を利用して、慎重に設計されたスケールロスに基づいて、絶対スケールを道路レイアウトから深さまで伝播する。
一方,道路や車両のレイアウトを注意機構を通じて推論するための奥行き情報を活用するために,クロスビュー・クロスモーダルトランスファー(CCT)モジュールが開発された。
JPerceiverは、CGTスケールロスとCCTモジュールがタスク間の知識伝達を促進し、各タスクの特徴学習に役立てる、エンドツーエンドのマルチタスク学習方法で訓練することができる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクのすべてにおいて、精度、モデルサイズ、推論速度の点で、JPerceiverが既存のメソッドよりも優れていることを示している。
コードとモデルは、~\href{https://github.com/sunnyHelen/JPerceiver}{https://github.com/sunnyHelen/JPerceiver} で入手できる。
関連論文リスト
- Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - Object Semantics Give Us the Depth We Need: Multi-task Approach to
Aerial Depth Completion [1.2239546747355885]
本稿では,2つのタスクをひとつのパスで共同実行するための新しい手法を提案する。
提案手法は,2つのタスクを共同学習機能に公開するエンコーダに着目したマルチタスク学習モデルに基づく。
実験の結果,提案したマルチタスクネットワークはシングルタスクネットワークよりも優れていた。
論文 参考訳(メタデータ) (2023-04-25T03:21:32Z) - Graph-based Topology Reasoning for Driving Scenes [102.35885039110057]
TopoNetは、従来の知覚タスクを超えてトラフィック知識を抽象化できる最初のエンドツーエンドフレームワークである。
TopoNetを,難解なシーン理解ベンチマークOpenLane-V2で評価した。
論文 参考訳(メタデータ) (2023-04-11T15:23:29Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - A Simple and Efficient Multi-task Network for 3D Object Detection and
Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。
提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文 参考訳(メタデータ) (2021-03-06T08:00:26Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。