論文の概要: MonoLayout: Amodal scene layout from a single image
- arxiv url: http://arxiv.org/abs/2002.08394v1
- Date: Wed, 19 Feb 2020 19:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:55:27.999913
- Title: MonoLayout: Amodal scene layout from a single image
- Title(参考訳): MonoLayout: 単一イメージからのアモーダルなシーンレイアウト
- Authors: Kaustubh Mani, Swapnil Daga, Shubhika Garg, N. Sai Shankar, Krishna
Murthy Jatavallabhula, K. Madhava Krishna
- Abstract要約: 運転プラットフォームから1枚のカラー画像が得られた場合,道路の鳥眼視線配置を予測することを目的としている。
我々はこの問題を,シーンレイアウトの「ハロシン化」を伴う,シーンレイアウト推定に用いている。
この目的のために,リアルタイムなアモーダルシーンレイアウト推定のためのディープニューラルネットワークMonoを提案する。
- 参考スコア(独自算出の注目度): 12.466845447851377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the novel, highly challenging problem of estimating
the layout of a complex urban driving scenario. Given a single color image
captured from a driving platform, we aim to predict the bird's-eye view layout
of the road and other traffic participants. The estimated layout should reason
beyond what is visible in the image, and compensate for the loss of 3D
information due to projection. We dub this problem amodal scene layout
estimation, which involves "hallucinating" scene layout for even parts of the
world that are occluded in the image. To this end, we present MonoLayout, a
deep neural network for real-time amodal scene layout estimation from a single
image. We represent scene layout as a multi-channel semantic occupancy grid,
and leverage adversarial feature learning to hallucinate plausible completions
for occluded image parts. Due to the lack of fair baseline methods, we extend
several state-of-the-art approaches for road-layout estimation and vehicle
occupancy estimation in bird's-eye view to the amodal setup for rigorous
evaluation. By leveraging temporal sensor fusion to generate training labels,
we significantly outperform current art over a number of datasets. On the KITTI
and Argoverse datasets, we outperform all baselines by a significant margin. We
also make all our annotations, and code publicly available. A video abstract of
this paper is available https://www.youtube.com/watch?v=HcroGyo6yRQ .
- Abstract(参考訳): 本稿では,複雑な都市運転シナリオの配置を推定する新しい,非常に困難な課題について述べる。
運転プラットフォームから撮影した1枚のカラー画像から,道路および他の交通機関の鳥眼ビューレイアウトを予測することを目的としている。
推定されたレイアウトは、画像から見えるものを超えて、投影による3D情報の損失を補うべきである。
我々は,画像に隠された世界の偶数箇所のシーンレイアウトを「幻覚化」することを含む,amodal scene layout estimation という問題を浮き彫りにする。
そこで本研究では,単一の画像から実時間アモーダルシーンレイアウト推定を行うディープニューラルネットワークであるmonolayoutを提案する。
我々は,シーンレイアウトを多チャンネルセマンティック占有グリッドとして表現し,敵対的特徴学習を活用して,隠蔽画像部品の具体的完成を幻覚させる。
公平なベースライン手法の欠如により,鳥眼図における道路レイアウト推定と車両占有率推定のための最先端手法を,厳密な評価のためのアモーダル設定に拡張した。
テンポラリセンサ融合を利用してトレーニングラベルを生成することで、多くのデータセットで現在のアートを著しく上回っています。
KITTIとArgoverseのデータセットでは、すべてのベースラインを大きなマージンで上回ります。
アノテーションやコードもすべて公開しています。
この論文のビデオ要約はhttps://www.youtube.com/watch?
v=HcroGyo6yRQ。
関連論文リスト
- Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation [39.08243715525956]
Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。
ニューラルレイディアンス場(NeRF)の人気が高まり、暗黙の表現もシーン完了のために人気になった。
本稿では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に変換することを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:30:24Z) - PanoContext-Former: Panoramic Total Scene Understanding with a
Transformer [37.51637352106841]
パノラマ画像は、周囲の環境についてより深く理解し、より総合的な認識を可能にする。
本稿では,室内環境の総合的理解に先立って深度を用いた新しい手法を提案する。
さらに,写真リアリスティックパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
論文 参考訳(メタデータ) (2023-05-21T16:20:57Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - Neural Rendering in a Room: Amodal 3D Understanding and Free-Viewpoint
Rendering for the Closed Scene Composed of Pre-Captured Objects [40.59508249969956]
閉シーンに対するニューラルレンダリングを用いたアモーダル3次元シーン理解の新しいパラダイムに基づいて、そのような人間の知覚能力を模倣する新しいソリューションを提案する。
まず, 閉鎖シーンにおける物体の事前の知識を, オフラインステージを通じて学習し, オンラインステージにおいて, 家具の配置のない部屋の理解を容易にする。
オンライン段階において、異なるレイアウトのシーンのパノラマ画像が与えられた場合、我々は、全体論的ニューラルネットワークに基づく最適化フレームワークを使用して、正しい3Dシーンレイアウトを効率的に推定し、リアルな自由視点レンダリングを提供する。
論文 参考訳(メタデータ) (2022-05-05T15:34:09Z) - Self-supervised 360$^{\circ}$ Room Layout Estimation [20.062713286961326]
ラベル付きデータを使わずにパノラマ的な部屋配置推定モデルを訓練するための,最初の自己教師方式を提案する。
弊社のアプローチでは、データ共有シナリオとアクティブラーニングにおける有望なソリューションも示しています。
論文 参考訳(メタデータ) (2022-03-30T04:58:07Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - AutoLay: Benchmarking amodal layout estimation for autonomous driving [18.152206533685412]
AutoLayはモノクロ画像からアモーダルレイアウトを推定するためのデータセットとベンチマークである。
また,車線,歩道,車両などの微粒な属性に加えて,意味的に注釈付けされた3次元点雲も提供する。
論文 参考訳(メタデータ) (2021-08-20T08:21:11Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。