論文の概要: Towards 3D Object-Centric Feature Learning for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2511.13031v1
- Date: Mon, 17 Nov 2025 06:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.722622
- Title: Towards 3D Object-Centric Feature Learning for Semantic Scene Completion
- Title(参考訳): セマンティック・シーン・コンプリートのための3次元オブジェクト中心特徴学習に向けて
- Authors: Weihua Wang, Yubo Cui, Xiangru Lin, Zhiheng Li, Zheng Fang,
- Abstract要約: 視覚に基づく3Dセマンティックシーンコンプリート(SSC)は、自動運転の可能性から注目を集めている。
シーンを個々のオブジェクトインスタンスに分解するオブジェクト中心の予測フレームワークであるOceanを提案する。
その結果,Oceanは17.40点,mIoUスコアは20.28点であった。
- 参考スコア(独自算出の注目度): 18.41627244498394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based 3D Semantic Scene Completion (SSC) has received growing attention due to its potential in autonomous driving. While most existing approaches follow an ego-centric paradigm by aggregating and diffusing features over the entire scene, they often overlook fine-grained object-level details, leading to semantic and geometric ambiguities, especially in complex environments. To address this limitation, we propose Ocean, an object-centric prediction framework that decomposes the scene into individual object instances to enable more accurate semantic occupancy prediction. Specifically, we first employ a lightweight segmentation model, MobileSAM, to extract instance masks from the input image. Then, we introduce a 3D Semantic Group Attention module that leverages linear attention to aggregate object-centric features in 3D space. To handle segmentation errors and missing instances, we further design a Global Similarity-Guided Attention module that leverages segmentation features for global interaction. Finally, we propose an Instance-aware Local Diffusion module that improves instance features through a generative process and subsequently refines the scene representation in the BEV space. Extensive experiments on the SemanticKITTI and SSCBench-KITTI360 benchmarks demonstrate that Ocean achieves state-of-the-art performance, with mIoU scores of 17.40 and 20.28, respectively.
- Abstract(参考訳): 視覚に基づく3Dセマンティックシーンコンプリート(SSC)は、自動運転の可能性から注目を集めている。
既存のほとんどのアプローチは、エゴ中心のパラダイムに従っているが、特に複雑な環境では、細かなオブジェクトレベルの詳細を見落とし、意味的および幾何学的曖昧さをもたらすことが多い。
この制限に対処するため、より正確なセマンティック占有予測を可能にするために、シーンを個々のオブジェクトインスタンスに分解するオブジェクト中心の予測フレームワークであるOceanを提案する。
具体的には、入力画像からインスタンスマスクを抽出するために、まず軽量セグメンテーションモデルMobileSAMを用いる。
次に,3次元空間におけるオブジェクト中心の特徴を集約するために,線形注意を利用した3次元セマンティックグループ注意モジュールを提案する。
セグメンテーションエラーや欠落したインスタンスを扱うために,グローバルなインタラクションのためにセグメンテーション機能を利用するGlobal similarity-Guided Attentionモジュールをさらに設計する。
最後に,インスタンス対応ローカル拡散モジュールを提案する。このモジュールは生成プロセスを通じてインスタンス機能を改善し,BEV空間におけるシーン表現を改良する。
SemanticKITTI と SSCBench-KITTI360 のベンチマークによる大規模な実験では、Ocean が最先端のパフォーマンスを達成しており、mIoU のスコアはそれぞれ 17.40 と 20.28 である。
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving [12.406655155106424]
そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:00:06Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。