論文の概要: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- arxiv url: http://arxiv.org/abs/2306.15670v1
- Date: Tue, 27 Jun 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:14:36.907725
- Title: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
- Title(参考訳): コンテキストインスタンスクエリによる3次元セマンティックシーン補完のシンフォナイズ
- Authors: Haoyi Jiang and Tianheng Cheng and Naiyu Gao and Haoyang Zhang and
Wenyu Liu and Xinggang Wang
- Abstract要約: 3Dセマンティックシーンコンプリート(SSC)は、自動運転の初期段階で重要なタスクとして登場した。
既存のメソッドは主に、インスタンス中心のセマンティクスとより広いコンテキストを無視しながら、ボクセル的な機能集約に焦点を当てています。
本稿では,SSCのためのSymphony(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 34.132014772453765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal task
for autonomous driving, as it involves predicting per-voxel occupancy within a
3D scene from partial LiDAR or image inputs. Existing methods primarily focus
on the voxel-wise feature aggregation, while neglecting the instance-centric
semantics and broader context. In this paper, we present a novel paradigm
termed Symphonies (Scene-from-Insts) for SSC, which completes the scene volume
from a sparse set of instance queries derived from the input with context
awareness. By incorporating the queries as the instance feature representations
within the scene, Symphonies dynamically encodes the instance-centric semantics
to interact with the image and volume features while avoiding the dense
voxel-wise modeling. Simultaneously, it orchestrates a more comprehensive
understanding of the scenario by capturing context throughout the entire scene,
contributing to alleviating the geometric ambiguity derived from occlusion and
perspective errors. Symphonies achieves a state-of-the-art result of 13.02 mIoU
on the challenging SemanticKITTI dataset, outperforming existing methods and
showcasing the promising advancements of the paradigm. The code is available at
\url{https://github.com/hustvl/Symphonies}.
- Abstract(参考訳): 3Dセマンティックシーンコンプリート(SSC)は、部分的にLiDARや画像入力から3Dシーン内のボクセル当たりの占有率を予測することを含む、自動運転の初期段階で重要なタスクとして登場した。
既存のメソッドは主にvoxel-wise機能アグリゲーションにフォーカスしているが、インスタンス中心のセマンティクスやより広いコンテキストは無視している。
本稿では,SSCのためのシンフォニー(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
クエリをインスタンスの特徴表現としてシーン内に組み込むことで、Symphonyはインスタンス中心のセマンティクスを動的にエンコードしてイメージとボリュームの特徴と相互作用し、密度の高いボクセルのモデリングを避ける。
同時に、シーン全体のコンテキストをキャプチャすることで、シナリオをより包括的に理解し、オクルージョンと視点誤差に由来する幾何学的曖昧さを緩和する。
交響曲は、挑戦的なセマンティックKITTIデータセット上で13.02 mIoUの最先端の結果を達成し、既存の手法を上回り、パラダイムの有望な進歩を示す。
コードは \url{https://github.com/hustvl/symphonies} で入手できる。
関連論文リスト
- Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction [24.82894136068243]
PanopticRecon++は、新しい横断的視点を通じて、パノプティクスの再構築を定式化するエンドツーエンドのメソッドである。
このパースペクティブは、(クエリとして)3Dインスタンスとシーンの(キーとして)3D埋め込みフィールドの関係を、アテンションマップを通じてモデル化する。
PanopticRecon++は、シミュレーションと実世界のデータセットの両方で、3Dと2Dのセグメンテーションと再構成のパフォーマンスで競合するパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-01-02T07:37:09Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。
本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。
提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-28T16:08:36Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Semantic Scene Completion via Integrating Instances and Scene
in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。
本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。
本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文 参考訳(メタデータ) (2021-04-08T09:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。