論文の概要: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- arxiv url: http://arxiv.org/abs/2306.15670v1
- Date: Tue, 27 Jun 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:14:36.907725
- Title: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- Title(参考訳): コンテキストインスタンスクエリによる3次元セマンティックシーン補完のシンフォナイズ
- Authors: Haoyi Jiang and Tianheng Cheng and Naiyu Gao and Haoyang Zhang and
Wenyu Liu and Xinggang Wang
- Abstract要約: 3Dセマンティックシーンコンプリート(SSC)は、自動運転の初期段階で重要なタスクとして登場した。
既存のメソッドは主に、インスタンス中心のセマンティクスとより広いコンテキストを無視しながら、ボクセル的な機能集約に焦点を当てています。
本稿では,SSCのためのSymphony(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 34.132014772453765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal task
for autonomous driving, as it involves predicting per-voxel occupancy within a
3D scene from partial LiDAR or image inputs. Existing methods primarily focus
on the voxel-wise feature aggregation, while neglecting the instance-centric
semantics and broader context. In this paper, we present a novel paradigm
termed Symphonies (Scene-from-Insts) for SSC, which completes the scene volume
from a sparse set of instance queries derived from the input with context
awareness. By incorporating the queries as the instance feature representations
within the scene, Symphonies dynamically encodes the instance-centric semantics
to interact with the image and volume features while avoiding the dense
voxel-wise modeling. Simultaneously, it orchestrates a more comprehensive
understanding of the scenario by capturing context throughout the entire scene,
contributing to alleviating the geometric ambiguity derived from occlusion and
perspective errors. Symphonies achieves a state-of-the-art result of 13.02 mIoU
on the challenging SemanticKITTI dataset, outperforming existing methods and
showcasing the promising advancements of the paradigm. The code is available at
\url{https://github.com/hustvl/Symphonies}.
- Abstract(参考訳): 3Dセマンティックシーンコンプリート(SSC)は、部分的にLiDARや画像入力から3Dシーン内のボクセル当たりの占有率を予測することを含む、自動運転の初期段階で重要なタスクとして登場した。
既存のメソッドは主にvoxel-wise機能アグリゲーションにフォーカスしているが、インスタンス中心のセマンティクスやより広いコンテキストは無視している。
本稿では,SSCのためのシンフォニー(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
クエリをインスタンスの特徴表現としてシーン内に組み込むことで、Symphonyはインスタンス中心のセマンティクスを動的にエンコードしてイメージとボリュームの特徴と相互作用し、密度の高いボクセルのモデリングを避ける。
同時に、シーン全体のコンテキストをキャプチャすることで、シナリオをより包括的に理解し、オクルージョンと視点誤差に由来する幾何学的曖昧さを緩和する。
交響曲は、挑戦的なセマンティックKITTIデータセット上で13.02 mIoUの最先端の結果を達成し、既存の手法を上回り、パラダイムの有望な進歩を示す。
コードは \url{https://github.com/hustvl/symphonies} で入手できる。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Mix3D: Out-of-Context Data Augmentation for 3D Scenes [33.939743149673696]
大規模3Dシーンのセグメンテーションのためのデータ拡張手法であるMix3Dを提案する。
実験では、屋内(ScanNet, S3DIS)および屋外データセットにおいて、Mix3Dの利益をトレーニングしたモデルが顕著に向上したことを示す。
論文 参考訳(メタデータ) (2021-10-05T17:57:45Z) - Semantic Scene Completion via Integrating Instances and Scene
in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。
本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。
本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文 参考訳(メタデータ) (2021-04-08T09:50:30Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。