論文の概要: LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2602.11007v1
- Date: Wed, 11 Feb 2026 16:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.186853
- Title: LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation
- Title(参考訳): LaSSM: 3次元インスタンスセグメンテーションのための局所アグリゲーションと状態空間モデルによる効率的なセマンティック-空間クエリデコーディング
- Authors: Lei Yao, Yi Wang, Yawen Cui, Moyun Liu, Lap-Pui Chau,
- Abstract要約: 競争性能を維持しつつ、シンプルさと効率性を優先するLaSSMを紹介します。
また、問合せを段階的に洗練する座標誘導状態空間モデル(SSM)デコーダを提案する。
LaSSMは最新のScanNet++ V2リーダーボードで1位にランクインし、以前のベストメソッドよりも2.5% mAP、1/3 FLOPを上回っている。
- 参考スコア(独自算出の注目度): 21.566771922153027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-based 3D scene instance segmentation from point clouds has attained notable performance. However, existing methods suffer from the query initialization dilemma due to the sparse nature of point clouds and rely on computationally intensive attention mechanisms in query decoders. We accordingly introduce LaSSM, prioritizing simplicity and efficiency while maintaining competitive performance. Specifically, we propose a hierarchical semantic-spatial query initializer to derive the query set from superpoints by considering both semantic cues and spatial distribution, achieving comprehensive scene coverage and accelerated convergence. We further present a coordinate-guided state space model (SSM) decoder that progressively refines queries. The novel decoder features a local aggregation scheme that restricts the model to focus on geometrically coherent regions and a spatial dual-path SSM block to capture underlying dependencies within the query set by integrating associated coordinates information. Our design enables efficient instance prediction, avoiding the incorporation of noisy information and reducing redundant computation. LaSSM ranks first place on the latest ScanNet++ V2 leaderboard, outperforming the previous best method by 2.5% mAP with only 1/3 FLOPs, demonstrating its superiority in challenging large-scale scene instance segmentation. LaSSM also achieves competitive performance on ScanNet, ScanNet200, S3DIS and ScanNet++ V1 benchmarks with less computational cost. Extensive ablation studies and qualitative results validate the effectiveness of our design. The code and weights are available at https://github.com/RayYoh/LaSSM.
- Abstract(参考訳): クエリベースのポイントクラウドからの3Dシーンインスタンスのセグメンテーションは、注目すべきパフォーマンスを達成した。
しかし、既存の手法は点雲のスパースの性質のためクエリ初期化ジレンマに悩まされており、クエリデコーダの計算集約的な注意機構に依存している。
そこで,LaSSMを導入し,競争性能を維持しつつ,シンプルさと効率性を優先する。
具体的には,セマンティックキューと空間分布の両方を考慮し,包括的シーンカバレッジを実現し,コンバージェンスを高速化することにより,スーパーポイントからクエリセットを導出する階層型セマンティック-空間クエリ初期化器を提案する。
さらに、問合せを段階的に洗練する座標誘導状態空間モデル(SSM)デコーダを提案する。
この新デコーダは、幾何学的に整合した領域にフォーカスするようにモデルを限定する局所集約スキームと、関連する座標情報を統合することで、クエリセット内の基盤となる依存関係をキャプチャする空間二重パスSSMブロックを備える。
本設計では,高効率なインスタンス予測,ノイズ情報の導入回避,冗長計算の削減を実現している。
LaSSMは最新のScanNet++ V2のリーダーボードで第1位にランクインし、2.5%のmAPで1/3のFLOPを達成し、大規模なシーンインスタンスセグメンテーションに挑戦する上で優位性を示している。
LaSSMはまた、計算コストの少ないScanNet、ScanNet200、S3DIS、ScanNet++ V1ベンチマーク上での競合性能も達成している。
大規模なアブレーション研究と定性的な結果により, 設計の有効性が検証された。
コードとウェイトはhttps://github.com/RayYoh/LaSSMで確認できる。
関連論文リスト
- StruMamba3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning [31.585380521480868]
自己教師付きポイントクラウド表現学習のための新しいパラダイムであるStruMamba3Dを提案する。
空間状態を設計し,それらをプロキシとして用いて点間の空間的依存関係を保存する。
提案手法は,ModelNet40上でのSOTA 95.1%の精度と,投票戦略を使わずに最も難しい分割ScanObjectNN上での92.75%の精度を実現する。
論文 参考訳(メタデータ) (2025-06-26T17:58:05Z) - DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos [53.52664872583893]
Bird's Eye View (BEV) におけるカメラベースの3Dオブジェクト検出は、自律運転において最も重要な認識タスクの1つである。
状態空間学習と動的クエリを用いた新しいDySSを提案する。
提案するDySSは,優れた検出性能と効率的な推論を実現する。
論文 参考訳(メタデータ) (2025-06-11T23:49:56Z) - SparseSSM: Efficient Selective Structured State Space Models Can Be Pruned in One-Shot [8.080568103779893]
Mambaのような状態空間言語モデルは、線形複雑性推論を許容しながらTransformerの品質にマッチする。
既存のワンショットプルーニング手法はアテンションブロックに適合し、時間共有および離散化された状態遷移行列を考慮できない。
SparseSSMは、古典的最適な脳外科医(OBS)フレームワークをステートスペースアーキテクチャに拡張した最初のトレーニングフリープルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-11T11:14:57Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [67.97870844244187]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Learning Semantic Segmentation of Large-Scale Point Clouds with Random
Sampling [52.464516118826765]
我々はRandLA-Netを紹介した。RandLA-Netは、大規模ポイントクラウドのポイントごとの意味を推論する、効率的で軽量なニューラルネットワークアーキテクチャである。
我々のアプローチの鍵は、より複雑な点選択アプローチではなく、ランダムな点サンプリングを使用することである。
我々のRandLA-Netは、既存のアプローチよりも最大200倍高速な1回のパスで100万ポイントを処理できます。
論文 参考訳(メタデータ) (2021-07-06T05:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。