論文の概要: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2407.11564v1
- Date: Tue, 16 Jul 2024 10:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:42:36.513758
- Title: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation
- Title(参考訳): SGIFormer:3次元インスタンスセグメンテーションのための意味誘導型および幾何学強化型インターリーブ変換器
- Authors: Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau,
- Abstract要約: 本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 14.214197948110115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, transformer-based models have exhibited considerable potential in point cloud instance segmentation. Despite the promising performance achieved by existing methods, they encounter challenges such as instance query initialization problems and excessive reliance on stacked layers, rendering them incompatible with large-scale 3D scenes. This paper introduces a novel method, named SGIFormer, for 3D instance segmentation, which is composed of the Semantic-guided Mix Query (SMQ) initialization and the Geometric-enhanced Interleaving Transformer (GIT) decoder. Specifically, the principle of our SMQ initialization scheme is to leverage the predicted voxel-wise semantic information to implicitly generate the scene-aware query, yielding adequate scene prior and compensating for the learnable query set. Subsequently, we feed the formed overall query into our GIT decoder to alternately refine instance query and global scene features for further capturing fine-grained information and reducing complex design intricacies simultaneously. To emphasize geometric property, we consider bias estimation as an auxiliary task and progressively integrate shifted point coordinates embedding to reinforce instance localization. SGIFormer attains state-of-the-art performance on ScanNet V2, ScanNet200 datasets, and the challenging high-fidelity ScanNet++ benchmark, striking a balance between accuracy and efficiency. The code, weights, and demo videos are publicly available at https://rayyoh.github.io/sgiformer.
- Abstract(参考訳): 近年、トランスフォーマーベースのモデルでは、ポイントクラウドインスタンスのセグメンテーションにかなりの可能性がある。
既存のメソッドが達成した有望なパフォーマンスにもかかわらず、インスタンスクエリの初期化問題や積み重ねられたレイヤへの過度な依存といった課題に直面し、大規模な3Dシーンと互換性がない。
本稿ではSGIFormerという,SMQの初期化とGeometric-enhanced Interleaving Transformer(GIT)デコーダで構成される3Dインスタンスセグメンテーションのための新しい手法を提案する。
具体的には、SMQ初期化方式の原則として、予測されたボクセルのセマンティック情報を利用して、暗黙的にシーン認識クエリを生成し、適切なシーンを事前に生成し、学習可能なクエリセットを補償する。
その後、生成した全クエリをGITデコーダに入力し、インスタンスクエリとグローバルシーン機能を交互に洗練し、より詳細な情報を取得し、複雑な設計の複雑さを同時に低減する。
幾何的特性を強調するため、偏差推定を補助的タスクとみなし、シフト点座標の埋め込みを段階的に統合し、インスタンスの局所化を強化する。
SGIFormerは、ScanNet V2、ScanNet200データセット、そして挑戦的な高忠実なScanNet++ベンチマークで最先端のパフォーマンスを達成し、正確性と効率のバランスを保った。
コード、ウェイト、デモビデオはhttps://rayyoh.github.io/sgiformer.comで公開されている。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments [20.890476387720483]
MoREは進化する環境における多目的再局在と再構成のための新しいアプローチである。
これらの環境を「生きたシーン」とみなし、異なる時点のスキャンをオブジェクトインスタンスの3次元再構成に変換する問題について考察する。
論文 参考訳(メタデータ) (2023-12-14T17:09:57Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。