論文の概要: Bridging Stereo Geometry and BEV Representation with Reliable Mutual
Interaction for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2303.13959v3
- Date: Fri, 12 Jan 2024 12:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-16 00:16:01.852397
- Title: Bridging Stereo Geometry and BEV Representation with Reliable Mutual
Interaction for Semantic Scene Completion
- Title(参考訳): セマンティックシーン補完のための信頼性相互相互作用によるブリッジングステレオ形状とBEV表現
- Authors: Bohan Li, Yasheng Sun, Zhujin Liang, Dalong Du, Zhuanghui Zhang,
Xiaofeng Wang, Yunnan Wang, Xin Jin, Wenjun Zeng
- Abstract要約: 3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
- 参考スコア(独自算出の注目度): 46.869851381253476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic scene completion (SSC) is an ill-posed perception task that
requires inferring a dense 3D scene from limited observations. Previous
camera-based methods struggle to predict accurate semantic scenes due to
inherent geometric ambiguity and incomplete observations. In this paper, we
resort to stereo matching technique and bird's-eye-view (BEV) representation
learning to address such issues in SSC. Complementary to each other, stereo
matching mitigates geometric ambiguity with epipolar constraint while BEV
representation enhances the hallucination ability for invisible regions with
global semantic context. However, due to the inherent representation gap
between stereo geometry and BEV features, it is non-trivial to bridge them for
dense prediction task of SSC. Therefore, we further develop a unified
occupancy-based framework dubbed BRGScene, which effectively bridges these two
representations with dense 3D volumes for reliable semantic scene completion.
Specifically, we design a novel Mutual Interactive Ensemble (MIE) block for
pixel-level reliable aggregation of stereo geometry and BEV features. Within
the MIE block, a Bi-directional Reliable Interaction (BRI) module, enhanced
with confidence re-weighting, is employed to encourage fine-grained interaction
through mutual guidance. Besides, a Dual Volume Ensemble (DVE) module is
introduced to facilitate complementary aggregation through channel-wise
recalibration and multi-group voting. Our method outperforms all published
camera-based methods on SemanticKITTI for semantic scene completion.
- Abstract(参考訳): 3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法では、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測できない。
本稿では,SSCにおけるステレオマッチング手法と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
ステレオマッチングはエピポーラ制約による幾何学的曖昧さを緩和する一方、bev表現はグローバル意味文脈を持つ不可視領域の幻覚能力を高める。
しかし, 立体幾何学とBEVの特徴の相違により, SSCの密接な予測タスクのためにそれらを橋渡しすることは容易ではない。
そこで,この2つの表現を高密度な3Dボリュームで効果的にブリッジして,信頼性の高いセマンティックシーンを補完する,BRGSceneと呼ばれる統合占有型フレームワークをさらに発展させる。
具体的には、ステレオ幾何およびBEV特徴の画素レベルの信頼性の高いアグリゲーションのための新しい相互対話型アンサンブル(MIE)ブロックを設計する。
MIEブロック内では、信頼再重み付けにより強化された双方向信頼インタラクション(BRI)モジュールが、相互誘導によるきめ細かいインタラクションを促進するために使用される。
さらにdve(dual volume ensemble)モジュールを導入することで,チャネル毎の再調整と複数グループ投票による補完的なアグリゲーションが容易になる。
本手法は,セマンティックKITTIのセマンティック・シーン・コンプリートにおける全カメラ・ベースの手法より優れる。
関連論文リスト
- Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Fake It To Make It: Virtual Multiviews to Enhance Monocular Indoor Semantic Scene Completion [0.8669877024051931]
Indoor Semantic Scene Completionは、屋内シーンの単一のRGB画像から3Dセマンティック占有マップを再構築することを目的としている。
我々は、新しいビュー合成とマルチビュー融合を活用する革新的なアプローチを導入する。
我々は、NYUv2データセット上の既存のSSCネットワークと統合した場合、Scene Completionの最大2.8%、Semantic Scene Completionの4.9%のIoUスコアの改善を実証する。
論文 参考訳(メタデータ) (2025-03-07T02:09:38Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception [41.77153804695413]
汎用的な3D表現を備えた効果的な事前学習フレームワークは、大規模な動的シーンを知覚するのに非常に望ましい。
本研究では,シーンレベルのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-05-12T07:58:52Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。