論文の概要: StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene
Completion
- arxiv url: http://arxiv.org/abs/2303.13959v1
- Date: Fri, 24 Mar 2023 12:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:40:56.506380
- Title: StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene
Completion
- Title(参考訳): ステレオシーン:BEV支援のステレオマッチングパワーで3Dセマンティックシーンが完成
- Authors: Bohan Li, Yasheng Sun, Xin Jin, Wenjun Zeng, Zheng Zhu, Xiaoefeng
Wang, Yunpeng Zhang, James Okae, Hang Xiao, Dalong Du
- Abstract要約: 3Dセマンティックシーン補完(SSC)は、不完全な観察から密集した3Dシーンを推測する必要がある不適切な課題である。
従来の手法では、3Dの幾何学的入力を明示的に取り入れるか、単眼のRGB画像の後方で学習した3Dに頼っていた。
本稿では,外部の3Dセンサを使わずに,軽量カメラ入力をフル活用するStereoScene forSSCを提案する。
- 参考スコア(独自算出の注目度): 59.45055096236499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic scene completion (SSC) is an ill-posed task that requires
inferring a dense 3D scene from incomplete observations. Previous methods
either explicitly incorporate 3D geometric input or rely on learnt 3D prior
behind monocular RGB images. However, 3D sensors such as LiDAR are expensive
and intrusive while monocular cameras face challenges in modeling precise
geometry due to the inherent ambiguity. In this work, we propose StereoScene
for 3D Semantic Scene Completion (SSC), which explores taking full advantage of
light-weight camera inputs without resorting to any external 3D sensors. Our
key insight is to leverage stereo matching to resolve geometric ambiguity. To
improve its robustness in unmatched areas, we introduce bird's-eye-view (BEV)
representation to inspire hallucination ability with rich context information.
On top of the stereo and BEV representations, a mutual interactive aggregation
(MIA) module is carefully devised to fully unleash their power. Specifically, a
Bi-directional Interaction Transformer (BIT) augmented with confidence
re-weighting is used to encourage reliable prediction through mutual guidance
while a Dual Volume Aggregation (DVA) module is designed to facilitate
complementary aggregation. Experimental results on SemanticKITTI demonstrate
that the proposed StereoScene outperforms the state-of-the-art camera-based
methods by a large margin with a relative improvement of 26.9% in geometry and
38.6% in semantic.
- Abstract(参考訳): 3Dセマンティックシーン補完(SSC)は、不完全な観察から密集した3Dシーンを推測する必要がある不適切な課題である。
従来の手法では、3Dの幾何学的入力を明示的に取り入れるか、単眼のRGB画像の後方で学習した3Dに頼っていた。
しかし、LiDARのような3Dセンサーは高価で侵入性があり、モノクラーカメラは固有の曖昧さのために正確な幾何学をモデル化する上で困難に直面している。
本研究では,外部の3dセンサを使わずに,軽量カメラ入力を最大限に活用する3dセマンティックシーン補完(ssc)のためのステレオセンシングを提案する。
私たちの重要な洞察は、ステレオマッチングを利用して幾何学的曖昧さを解決することです。
未マッチング領域におけるロバスト性を改善するため,リッチな文脈情報による幻覚能力を高めるために,鳥眼ビュー(BEV)表現を導入する。
ステレオおよびBEV表現の上に、相互インタラクティブアグリゲーション(MIA)モジュールを慎重に設計し、そのパワーを完全に解放する。
具体的には、信頼度再重み付けを付加した双方向相互作用変換器(BIT)を用いて相互誘導による信頼性予測を行い、二重体積集約(DVA)モジュールは相補的な集約を容易にするように設計されている。
semantickittiの実験結果は、提案されたステレオシーンが最先端のカメラベース手法を上回り、相対的に26.9%、セマンティクスが38.6%改善していることを示している。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception [41.77153804695413]
汎用的な3D表現を備えた効果的な事前学習フレームワークは、大規模な動的シーンを知覚するのに非常に望ましい。
本研究では,シーンレベルのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-05-12T07:58:52Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。