論文の概要: OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2412.11183v1
- Date: Sun, 15 Dec 2024 13:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:25.283121
- Title: OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation
- Title(参考訳): OccScene:3次元シーン生成のためのセマンティックアクセシビリティに基づくクロスタスク相互学習
- Authors: Bohan Li, Xin Jin, Jianan Wang, Yukai Shi, Yasheng Sun, Xiaofeng Wang, Zhuang Ma, Baao Xie, Chao Ma, Xiaokang Yang, Wenjun Zeng,
- Abstract要約: OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。
OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。
実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
- 参考スコア(独自算出の注目度): 84.32038395034868
- License:
- Abstract: Recent diffusion models have demonstrated remarkable performance in both 3D scene generation and perception tasks. Nevertheless, existing methods typically separate these two processes, acting as a data augmenter to generate synthetic data for downstream perception tasks. In this work, we propose OccScene, a novel mutual learning paradigm that integrates fine-grained 3D perception and high-quality generation in a unified framework, achieving a cross-task win-win effect. OccScene generates new and consistent 3D realistic scenes only depending on text prompts, guided with semantic occupancy in a joint-training diffusion framework. To align the occupancy with the diffusion latent, a Mamba-based Dual Alignment module is introduced to incorporate fine-grained semantics and geometry as perception priors. Within OccScene, the perception module can be effectively improved with customized and diverse generated scenes, while the perception priors in return enhance the generation performance for mutual benefits. Extensive experiments show that OccScene achieves realistic 3D scene generation in broad indoor and outdoor scenarios, while concurrently boosting the perception models to achieve substantial performance improvements in the 3D perception task of semantic occupancy prediction.
- Abstract(参考訳): 近年の拡散モデルでは3次元シーン生成と知覚の両タスクにおいて顕著な性能を示した。
それにもかかわらず、既存の方法は一般的にこれらの2つのプロセスを分離し、下流の知覚タスクのための合成データを生成するデータ増幅器として機能する。
本研究では,3次元の微粒な認識と高品質な生成を統一されたフレームワークに統合し,クロスタスク・ウィンウィン効果を実現する新しい相互学習パラダイムであるOccSceneを提案する。
OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。
拡散遅延と共役するために、マンバをベースとしたデュアルアライメントモジュールを導入し、微粒なセマンティクスと幾何学を知覚の先行として組み込む。
OccScene内では、知覚モジュールは、カスタマイズされた多様な生成シーンで効果的に改善でき、その見返りとして、相互利益のための生成性能を高めることができる。
大規模な実験により,OccSceneは屋内および屋外の広いシナリオにおいて現実的な3Dシーン生成を実現し,同時に知覚モデルを強化し,セマンティック占有予測の3D知覚タスクにおいて顕著な性能向上を実現した。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Building a Strong Pre-Training Baseline for Universal 3D Large-Scale Perception [41.77153804695413]
汎用的な3D表現を備えた効果的な事前学習フレームワークは、大規模な動的シーンを知覚するのに非常に望ましい。
本研究では,シーンレベルのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-05-12T07:58:52Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。