論文の概要: Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2303.13959v4
- Date: Thu, 18 Apr 2024 11:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 14:38:58.510968
- Title: Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion
- Title(参考訳): セマンティックシーン完了のための相互相互作用の信頼性を考慮したブリッジングステレオ形状とBEV表現
- Authors: Bohan Li, Yasheng Sun, Zhujin Liang, Dalong Du, Zhuanghui Zhang, Xiaofeng Wang, Yunnan Wang, Xin Jin, Wenjun Zeng,
- Abstract要約: 3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
- 参考スコア(独自算出の注目度): 45.171150395915056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic scene completion (SSC) is an ill-posed perception task that requires inferring a dense 3D scene from limited observations. Previous camera-based methods struggle to predict accurate semantic scenes due to inherent geometric ambiguity and incomplete observations. In this paper, we resort to stereo matching technique and bird's-eye-view (BEV) representation learning to address such issues in SSC. Complementary to each other, stereo matching mitigates geometric ambiguity with epipolar constraint while BEV representation enhances the hallucination ability for invisible regions with global semantic context. However, due to the inherent representation gap between stereo geometry and BEV features, it is non-trivial to bridge them for dense prediction task of SSC. Therefore, we further develop a unified occupancy-based framework dubbed BRGScene, which effectively bridges these two representations with dense 3D volumes for reliable semantic scene completion. Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for pixel-level reliable aggregation of stereo geometry and BEV features. Within the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced with confidence re-weighting, is employed to encourage fine-grained interaction through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is introduced to facilitate complementary aggregation through channel-wise recalibration and multi-group voting. Our method outperforms all published camera-based methods on SemanticKITTI for semantic scene completion. Our code is available on \url{https://github.com/Arlo0o/StereoScene}.
- Abstract(参考訳): 3Dセマンティックシーン完了(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
本稿では,SSCにおけるステレオマッチング手法と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
BEV表現は、グローバルな意味的文脈を持つ見えない領域の幻覚能力を高める一方で、ステレオマッチングは、エピポーラ制約による幾何学的曖昧さを緩和する。
しかし, 立体幾何学とBEVの特徴の相違により, SSCの密接な予測タスクのためにそれらを橋渡しすることは容易ではない。
そこで,この2つの表現を高密度な3Dボリュームで効果的にブリッジして,信頼性の高いセマンティックシーンを補完する,BRGSceneと呼ばれる統合占有型フレームワークをさらに発展させる。
具体的には、ステレオ幾何およびBEV特徴の画素レベルの信頼性の高いアグリゲーションのための新しい相互対話型アンサンブル(MIE)ブロックを設計する。
MIEブロック内では、信頼再重み付けにより強化された双方向信頼インタラクション(BRI)モジュールが、相互誘導によるきめ細かいインタラクションを促進するために使用される。
さらに、チャネルワイド・リカレーションとマルチグループ投票を通じて補完的な集約を容易にするために、DVE(Dual Volume Ensemble)モジュールが導入された。
本手法は,セマンティックKITTIのセマンティック・シーン・コンプリートにおける全カメラ・ベースの手法より優れる。
私たちのコードは \url{https://github.com/Arlo0o/StereoScene} で利用可能です。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception [41.77153804695413]
汎用的な3D表現を備えた効果的な事前学習フレームワークは、大規模な動的シーンを知覚するのに非常に望ましい。
本研究では,シーンレベルのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-05-12T07:58:52Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。