論文の概要: Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2501.07260v1
- Date: Mon, 13 Jan 2025 12:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:13.175065
- Title: Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion
- Title(参考訳): 単眼3次元シーン完了のためのスキップマンバ拡散法
- Authors: Li Liang, Naveed Akhtar, Jordan Vice, Xiangrui Kong, Ajmal Saeed Mian,
- Abstract要約: 3Dセマンティックシーンの補完は、自律システムにおける複数の下流タスクに不可欠である。
状態空間の進歩と拡散生成モデルを利用した独自のニューラルモデルを提案する。
本手法は単眼画像入力による3次元セマンティックシーン補完性能を実現する。
- 参考スコア(独自算出の注目度): 24.4023135536433
- License:
- Abstract: 3D semantic scene completion is critical for multiple downstream tasks in autonomous systems. It estimates missing geometric and semantic information in the acquired scene data. Due to the challenging real-world conditions, this task usually demands complex models that process multi-modal data to achieve acceptable performance. We propose a unique neural model, leveraging advances from the state space and diffusion generative modeling to achieve remarkable 3D semantic scene completion performance with monocular image input. Our technique processes the data in the conditioned latent space of a variational autoencoder where diffusion modeling is carried out with an innovative state space technique. A key component of our neural network is the proposed Skimba (Skip Mamba) denoiser, which is adept at efficiently processing long-sequence data. The Skimba diffusion model is integral to our 3D scene completion network, incorporating a triple Mamba structure, dimensional decomposition residuals and varying dilations along three directions. We also adopt a variant of this network for the subsequent semantic segmentation stage of our method. Extensive evaluation on the standard SemanticKITTI and SSCBench-KITTI360 datasets show that our approach not only outperforms other monocular techniques by a large margin, it also achieves competitive performance against stereo methods. The code is available at https://github.com/xrkong/skimba
- Abstract(参考訳): 3Dセマンティックシーンの補完は、自律システムにおける複数の下流タスクに不可欠である。
取得したシーンデータに欠落した幾何学的・意味的な情報を推定する。
現実の困難な状況のため、このタスクは通常、許容可能なパフォーマンスを達成するために、マルチモーダルデータを処理する複雑なモデルを必要とする。
本研究では,状態空間の進歩と拡散生成モデルを利用して,単眼画像入力による顕著な3次元セマンティックシーン完了性能を実現する一貫したニューラルモデルを提案する。
本手法は, 拡散モデリングを行う変分オートエンコーダの条件付き潜在空間内のデータを, 革新的な状態空間技術で処理する。
我々のニューラルネットワークの重要なコンポーネントは、長いシーケンスデータを効率的に処理できるSkimba (Skip Mamba) denoiserである。
シンバ拡散モデルは3次元シーン完了ネットワークに不可欠なものであり,3次元マンバ構造,次元分解残差,3方向のディレーションが組み込まれている。
また,このネットワークを,その後のセマンティックセグメンテーション段階に適用する。
標準セマンティックKITTIとSSCBench-KITTI360データセットの大規模な評価は,本手法が他のモノラル技術よりも大きなマージンで優れるだけでなく,ステレオ手法との競合性能も達成していることを示している。
コードはhttps://github.com/xrkong/skimbaで入手できる。
関連論文リスト
- Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。
本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。
このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文 参考訳(メタデータ) (2025-02-04T18:18:50Z) - Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。
Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T15:54:21Z) - Semantic Scene Completion with Multi-Feature Data Balancing Network [5.3431413737671525]
RGBおよび深度データ(F-TSDF)入力のためのデュアルヘッドモデルを提案する。
プリアクティベーション残余モジュールにおけるアイデンティティ変換を伴うハイブリッドエンコーダデコーダアーキテクチャは、F-TSDF内の多様な信号を効果的に管理する。
我々は,RGB特徴融合戦略を評価し,2次元RGB特徴量と重み付きクロスエントロピーを併用して3次元SSC予測を行う。
論文 参考訳(メタデータ) (2024-12-02T12:12:21Z) - Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。