論文の概要: Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2507.08555v1
- Date: Fri, 11 Jul 2025 12:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.3642
- Title: Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion
- Title(参考訳): 3次元セマンティックシーンコンプリートのためのディエンタングリング事例とシーンコンテキスト
- Authors: Enyu Liu, En Yu, Sijia Chen, Wenbing Tao,
- Abstract要約: 3Dセマンティックシーンコンプリート(SSC)は3D知覚において重要な役割を担っているため注目されている。
最近の進歩は、主に3Dシーンを構築するために、ボクセルレベルの特徴を精錬することに焦点を当てている。
我々は、インスタンスとシーンの両方のカテゴリでの学習を強化するために、textbfDisentangling InstanceとScene Contexts(DISC)を提案する。
- 参考スコア(独自算出の注目度): 23.76697700853566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Semantic Scene Completion (SSC) has gained increasing attention due to its pivotal role in 3D perception. Recent advancements have primarily focused on refining voxel-level features to construct 3D scenes. However, treating voxels as the basic interaction units inherently limits the utilization of class-level information, which is proven critical for enhancing the granularity of completion results. To address this, we propose \textbf{D}isentangling Instance and Scene Contexts (DISC), a novel dual-stream paradigm that enhances learning for both instance and scene categories through separated optimization. Specifically, we replace voxel queries with discriminative class queries, which incorporate class-specific geometric and semantic priors. Additionally, we exploit the intrinsic properties of classes to design specialized decoding modules, facilitating targeted interactions and efficient class-level information flow. Experimental results demonstrate that DISC achieves state-of-the-art (SOTA) performance on both SemanticKITTI and SSCBench-KITTI-360 benchmarks, with mIoU scores of 17.35 and 20.55, respectively. Remarkably, DISC even outperforms multi-frame SOTA methods using only single-frame input and significantly improves instance category performance, surpassing both single-frame and multi-frame SOTA instance mIoU by 17.9\% and 11.9\%, respectively, on the SemanticKITTI hidden test. The code is available at https://github.com/Enyu-Liu/DISC.
- Abstract(参考訳): 3Dセマンティックシーンコンプリート(SSC)は3D知覚において重要な役割を担っているため注目されている。
最近の進歩は、主に3Dシーンを構築するために、ボクセルレベルの特徴を精錬することに焦点を当てている。
しかしながら、ボクセルを基本的な相互作用単位として扱うことは、クラスレベルの情報の利用を本質的に制限する。
そこで本研究では、インスタンスとシーンの両方のカテゴリの学習を分離した最適化によって強化する、新しいデュアルストリームパラダイムであるDISC(textbf{D}isentangling Instance and Scene Contexts)を提案する。
具体的には、ボクセルクエリを、クラス固有の幾何学的および意味論的事前を組み込んだ識別クラスクエリに置き換える。
さらに、クラス固有の特性を利用して、特定のデコードモジュールを設計し、ターゲットとなるインタラクションと効率的なクラスレベルの情報フローを容易にする。
実験の結果、DECはSemanticKITTIとSSCBench-KITTI-360ベンチマークの両方で、mIoUスコアは17.35と20.55である。
DISCはシングルフレーム入力のみを使用してマルチフレームSOTAメソッドよりも優れており、SemanticKITTIの隠れテストにおいて、シングルフレームSOTAインスタンスmIoUとマルチフレームSOTAインスタンスmIoUをそれぞれ17.9\%、11.9\%以上、インスタンスカテゴリのパフォーマンスが大幅に向上している。
コードはhttps://github.com/Enyu-Liu/DISCで公開されている。
関連論文リスト
- Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis [33.53327976669034]
より粒度の細かいレンズを通して3Dセマンティックセマンティックセグメンテーションを再考し、より広範なパフォーマンス指標によって隠蔽される微妙な複雑さに光を当てます。
本稿では,BFANetと呼ばれる3次元セマンティックセマンティック・セマンティック・ネットワークを導入し,セマンティック・バウンダリの特徴を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-16T15:13:11Z) - Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:29:51Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation [40.49322398635262]
本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
我々のモデルは、学習可能なLiDAR機能と密集した凍結視覚CLIP機能との融合を利用する。
本稿では,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:39:32Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with
Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。
この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文 参考訳(メタデータ) (2023-12-03T02:51:54Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Segmenting 3D Hybrid Scenes via Zero-Shot Learning [13.161136148641813]
この研究は、ゼロショット学習の枠組みの下で、3Dハイブリッドシーンのポイントクラウドセマンティックセマンティックセマンティクスの問題に取り組むことを目的としている。
本稿では、PFNetと呼ばれる、オブジェクトの様々なクラスに対するポイント特徴を、見えていないクラスと見えないクラスの両方のセマンティック特徴を利用して合成するネットワークを提案する。
提案したPFNet は点特徴を合成するために GAN アーキテクチャを用いており、新しい意味正規化器を適用することにより、目に見えるクラスと目に見えないクラスの特徴のセマンティックな関係が統合される。
本研究では,S3DISデータセットとScanNetデータセットを6つの異なるデータ分割で再編成し,アルゴリズム評価のための2つのベンチマークを提案する。
論文 参考訳(メタデータ) (2021-07-01T13:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。