Fugu-MT 論文翻訳(概要): GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision

論文の概要: GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision

arxiv url: http://arxiv.org/abs/2405.10591v1
Date: Fri, 17 May 2024 07:31:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 16:42:27.413621
Title: GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision
Title（参考訳）: GEOcc:不特定深度核融合と文脈自己スーパービジョンによる幾何学的拡張3次元占有ネットワーク
Authors: Xin Tan, Wenbin Wu, Zhiwei Zhang, Chaojie Fan, Yong Peng, Zhizhong Zhang, Yuan Xie, Lizhuang Ma,
Abstract要約: 本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
参考スコア（独自算出の注目度）: 49.839374549646884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D occupancy perception holds a pivotal role in recent vision-centric autonomous driving systems by converting surround-view images into integrated geometric and semantic representations within dense 3D grids. Nevertheless, current models still encounter two main challenges: modeling depth accurately in the 2D-3D view transformation stage, and overcoming the lack of generalizability issues due to sparse LiDAR supervision. To address these issues, this paper presents GEOcc, a Geometric-Enhanced Occupancy network tailored for vision-only surround-view perception. Our approach is three-fold: 1) Integration of explicit lift-based depth prediction and implicit projection-based transformers for depth modeling, enhancing the density and robustness of view transformation. 2) Utilization of mask-based encoder-decoder architecture for fine-grained semantic predictions; 3) Adoption of context-aware self-training loss functions in the pertaining stage to complement LiDAR supervision, involving the re-rendering of 2D depth maps from 3D occupancy features and leveraging image reconstruction loss to obtain denser depth supervision besides sparse LiDAR ground-truths. Our approach achieves State-Of-The-Art performance on the Occ3D-nuScenes dataset with the least image resolution needed and the most weightless image backbone compared with current models, marking an improvement of 3.3% due to our proposed contributions. Comprehensive experimentation also demonstrates the consistent superiority of our method over baselines and alternative approaches.
Abstract（参考訳）: 近年の視覚中心の自律運転システムにおいて、3次元占有感は、サラウンドビューイメージを高密度3次元グリッド内の統合幾何学的および意味的表現に変換することで重要な役割を担っている。しかしながら、現在のモデルでは、2D-3Dビュー変換段階での深度を正確にモデリングすることと、LiDARの監督不足による一般化可能性の欠如を克服することの2つの主要な課題に直面している。本稿では,視覚のみのサラウンドビュー認識に適したGeometric-Enhanced OccupancyネットワークであるGEOccを提案する。私たちのアプローチは3倍です。 1) 視線変換の密度とロバスト性を高めるために, 明示的リフトベース深度予測と暗黙的投射ベース変圧器を統合した。 2) マスクを用いたエンコーダデコーダアーキテクチャの細粒度意味予測への応用 3) 3次元占有特徴から2次元深度マップを再レンダリングし, 画像再構成損失を利用して, 粗いLiDAR地下構造以外の深度監視を行う, 関連段階における文脈認識型自己訓練損失関数の導入。提案手法は,Occ3D-nuScenesデータセットにおいて,画像解像度が最小で,画像バックボーンが最大であり,現行モデルと比較しても画像バックボーンが最大であり,提案したコントリビューションにより3.3%改善したことを示す。包括的実験はまた,本手法がベースラインや代替手法よりも一貫した優位性を示す。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation [41.98740330990215]
本研究は,2次元視覚基礎モデルと3次元タスクをブリッジする新しい手法を提案する。視覚言語モデルのゼロショット機能を画像意味論に活用する。我々は、再構成されたメートル法深度を用いて意味を3次元空間に投影し、3次元の監視を行う。
論文参考訳（メタデータ） (2025-03-10T09:54:40Z)
PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文参考訳（メタデータ） (2024-10-29T15:28:15Z)
Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成は、コンピュータビジョンにおいて非常に難しい課題である。本稿では,構造対応マスクにより拡張された自己拡張型粗大なガウススプラッティングパラダイムを提案する。本手法は,知覚的品質と効率の両面において,スパース入力ビューの最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-09T03:09:22Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
OCTraN: 3D Occupancy Convolutional Transformer Network in Unstructured Traffic Scenarios [0.0]
我々は2次元画像特徴を3次元占有特徴に変換するために反復アテンションを用いたトランスフォーマーアーキテクチャOCTraNを提案する。また、LiDARの地上真実の必要性を排除し、任意のシーンにモデルを一般化するための自己教師型トレーニングパイプラインも開発している。
論文参考訳（メタデータ） (2023-07-20T15:06:44Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文参考訳（メタデータ） (2022-03-16T11:54:10Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional Bilateral Grid for Edge Consistent Single Image Depth Estimation [0.45880283710344055]
3DBG-UNetと呼ばれるバイラテラルグリッドベースの3D畳み込みニューラルネットワークは、UNetsでコンパクトな3D二元格子を符号化することで、高次元の特徴空間をパラメータ化する。別の新しい3DBGES-UNetモデルは、3DBG-UNetを統合して1つのカラービューの正確な深度マップを推測するものである。
論文参考訳（メタデータ） (2021-05-21T04:53:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。