Fugu-MT 論文翻訳(概要): Symphonize 3D Semantic Scene Completion with Contextual Instance Queries

論文の概要: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries

arxiv url: http://arxiv.org/abs/2306.15670v1
Date: Tue, 27 Jun 2023 17:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 12:14:36.907725
Title: Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
Title（参考訳）: コンテキストインスタンスクエリによる3次元セマンティックシーン補完のシンフォナイズ
Authors: Haoyi Jiang and Tianheng Cheng and Naiyu Gao and Haoyang Zhang and Wenyu Liu and Xinggang Wang
Abstract要約: 3Dセマンティックシーンコンプリート(SSC)は、自動運転の初期段階で重要なタスクとして登場した。既存のメソッドは主に、インスタンス中心のセマンティクスとより広いコンテキストを無視しながら、ボクセル的な機能集約に焦点を当てています。本稿では,SSCのためのSymphony(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
参考スコア（独自算出の注目度）: 34.132014772453765
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: 3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal task for autonomous driving, as it involves predicting per-voxel occupancy within a 3D scene from partial LiDAR or image inputs. Existing methods primarily focus on the voxel-wise feature aggregation, while neglecting the instance-centric semantics and broader context. In this paper, we present a novel paradigm termed Symphonies (Scene-from-Insts) for SSC, which completes the scene volume from a sparse set of instance queries derived from the input with context awareness. By incorporating the queries as the instance feature representations within the scene, Symphonies dynamically encodes the instance-centric semantics to interact with the image and volume features while avoiding the dense voxel-wise modeling. Simultaneously, it orchestrates a more comprehensive understanding of the scenario by capturing context throughout the entire scene, contributing to alleviating the geometric ambiguity derived from occlusion and perspective errors. Symphonies achieves a state-of-the-art result of 13.02 mIoU on the challenging SemanticKITTI dataset, outperforming existing methods and showcasing the promising advancements of the paradigm. The code is available at \url{https://github.com/hustvl/Symphonies}.
Abstract（参考訳）: 3Dセマンティックシーンコンプリート(SSC)は、部分的にLiDARや画像入力から3Dシーン内のボクセル当たりの占有率を予測することを含む、自動運転の初期段階で重要なタスクとして登場した。既存のメソッドは主にvoxel-wise機能アグリゲーションにフォーカスしているが、インスタンス中心のセマンティクスやより広いコンテキストは無視している。本稿では,SSCのためのシンフォニー(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。クエリをインスタンスの特徴表現としてシーン内に組み込むことで、Symphonyはインスタンス中心のセマンティクスを動的にエンコードしてイメージとボリュームの特徴と相互作用し、密度の高いボクセルのモデリングを避ける。同時に、シーン全体のコンテキストをキャプチャすることで、シナリオをより包括的に理解し、オクルージョンと視点誤差に由来する幾何学的曖昧さを緩和する。交響曲は、挑戦的なセマンティックKITTIデータセット上で13.02 mIoUの最先端の結果を達成し、既存の手法を上回り、パラダイムの有望な進歩を示す。コードは \url{https://github.com/hustvl/symphonies} で入手できる。

関連論文リスト

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文参考訳（メタデータ） (2025-07-21T10:06:23Z)
SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文参考訳（メタデータ） (2025-06-11T09:56:39Z)
CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。 CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文参考訳（メタデータ） (2025-04-16T09:20:03Z)
Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction [24.82894136068243]
PanopticRecon++は、新しい横断的視点を通じて、パノプティクスの再構築を定式化するエンドツーエンドのメソッドである。このパースペクティブは、(クエリとして)3Dインスタンスとシーンの(キーとして)3D埋め込みフィールドの関係を、アテンションマップを通じてモデル化する。 PanopticRecon++は、シミュレーションと実世界のデータセットの両方で、3Dと2Dのセグメンテーションと再構成のパフォーマンスで競合するパフォーマンスを示している。
論文参考訳（メタデータ） (2025-01-02T07:37:09Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-28T16:08:36Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文参考訳（メタデータ） (2024-02-07T10:09:00Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文参考訳（メタデータ） (2023-05-04T11:32:16Z)
Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文参考訳（メタデータ） (2023-03-24T12:33:44Z)
Mix3D: Out-of-Context Data Augmentation for 3D Scenes [33.939743149673696]
大規模3Dシーンのセグメンテーションのためのデータ拡張手法であるMix3Dを提案する。実験では、屋内(ScanNet, S3DIS)および屋外データセットにおいて、Mix3Dの利益をトレーニングしたモデルが顕著に向上したことを示す。
論文参考訳（メタデータ） (2021-10-05T17:57:45Z)
Semantic Scene Completion via Integrating Instances and Scene in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文参考訳（メタデータ） (2021-04-08T09:50:30Z)
Semantic Scene Completion using Local Deep Implicit Functions on LiDAR Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文参考訳（メタデータ） (2020-11-18T07:39:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。