論文の概要: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- arxiv url: http://arxiv.org/abs/2306.15670v2
- Date: Wed, 22 Nov 2023 08:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 19:07:47.315555
- Title: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- Title(参考訳): コンテキストインスタンスクエリによる3次元セマンティックシーン補完のシンフォナイズ
- Authors: Haoyi Jiang and Tianheng Cheng and Naiyu Gao and Haoyang Zhang and
Tianwei Lin and Wenyu Liu and Xinggang Wang
- Abstract要約: 3Dセマンティック・シーン・コンプリート(SSC)は、自動運転における初期段階かつ重要な取り組みとして登場した。
本稿では,2次元から3次元の再構成と3次元のシーンモデリングを統括するインスタンスクエリの統合を目的とした,シンフォニー(Scene-from-Insts)という新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 49.604907627254434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: `3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal
undertaking in autonomous driving, aiming to predict voxel occupancy within
volumetric scenes. However, prevailing methodologies primarily focus on
voxel-wise feature aggregation, while neglecting instance semantics and scene
context. In this paper, we present a novel paradigm termed Symphonies
(Scene-from-Insts), that delves into the integration of instance queries to
orchestrate 2D-to-3D reconstruction and 3D scene modeling. Leveraging our
proposed Serial Instance-Propagated Attentions, Symphonies dynamically encodes
instance-centric semantics, facilitating intricate interactions between
image-based and volumetric domains. Simultaneously, Symphonies enables holistic
scene comprehension by capturing context through the efficient fusion of
instance queries, alleviating geometric ambiguity such as occlusion and
perspective errors through contextual scene reasoning. Experimental results
demonstrate that Symphonies achieves state-of-the-art performance on
challenging benchmarks SemanticKITTI and SSCBench-KITTI-360, yielding
remarkable mIoU scores of 15.04 and 18.58, respectively. These results showcase
the paradigm's promising advancements. The code is available at
https://github.com/hustvl/Symphonies.
- Abstract(参考訳): 3d semantic scene completion (ssc) は、ボリュームシーン内のvoxelの占有率を予測することを目的とした、自動運転における初期かつ重要な取り組みである。
しかし、一般的な方法論は主にvoxel-wise機能アグリゲーションに重点を置いているが、インスタンスセマンティクスやシーンコンテキストは無視している。
本稿では,2次元から3次元の再構成と3次元のシーンモデリングを統括するインスタンスクエリの統合を念頭に置いて,シンフォニー(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
提案する連続インスタンスに注目することで、シンフォニーは動的にインスタンス中心のセマンティクスをエンコードし、画像ベースドメインとボリュームドメイン間の複雑なインタラクションを容易にします。
同時にシンフォニーは、インスタンスクエリの効率的な融合を通じてコンテキストをキャプチャし、コンテキストシーン推論によるオクルージョンやパースペクティブエラーといった幾何学的曖昧さを緩和することで、総合的なシーン理解を可能にする。
実験の結果、Symphonyは挑戦的なベンチマークであるSemanticKITTIとSSCBench-KITTI-360で最先端のパフォーマンスを達成し、それぞれ15.04と18.58のmIoUスコアを得た。
これらの結果は、パラダイムの有望な進歩を示している。
コードはhttps://github.com/hustvl/symphoniesで入手できる。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Mix3D: Out-of-Context Data Augmentation for 3D Scenes [33.939743149673696]
大規模3Dシーンのセグメンテーションのためのデータ拡張手法であるMix3Dを提案する。
実験では、屋内(ScanNet, S3DIS)および屋外データセットにおいて、Mix3Dの利益をトレーニングしたモデルが顕著に向上したことを示す。
論文 参考訳(メタデータ) (2021-10-05T17:57:45Z) - Semantic Scene Completion via Integrating Instances and Scene
in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。
本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。
本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文 参考訳(メタデータ) (2021-04-08T09:50:30Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。