論文の概要: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation
- arxiv url: http://arxiv.org/abs/2506.17891v1
- Date: Sun, 22 Jun 2025 03:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.638761
- Title: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation
- Title(参考訳): Relation3D: ポイントクラウドインスタンスセグメンテーションのためのリレーショナルモデリングの強化
- Authors: Jiahao Lu, Jiacheng Deng,
- Abstract要約: 3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。
textbfRelation3D: Enhancing Relation Modeling for Point Instance, 具体的には、適応的なスーパーポイントアグリゲーションモジュールと対照的な学習誘導型スーパーポイントリファインメントモジュールを導入し、スーパーポイント機能(シーン機能)をより良く表現する。
我々の関係認識型自己アテンション機構は、位置関係と幾何学的関係を自己アテンション機構に組み込むことで、クエリ間の関係をモデル化する能力を高める。
- 参考スコア(独自算出の注目度): 4.476845464695504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D instance segmentation aims to predict a set of object instances in a scene, representing them as binary foreground masks with corresponding semantic labels. Currently, transformer-based methods are gaining increasing attention due to their elegant pipelines and superior predictions. However, these methods primarily focus on modeling the external relationships between scene features and query features through mask attention. They lack effective modeling of the internal relationships among scene features as well as between query features. In light of these disadvantages, we propose \textbf{Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation}. Specifically, we introduce an adaptive superpoint aggregation module and a contrastive learning-guided superpoint refinement module to better represent superpoint features (scene features) and leverage contrastive learning to guide the updates of these features. Furthermore, our relation-aware self-attention mechanism enhances the capabilities of modeling relationships between queries by incorporating positional and geometric relationships into the self-attention mechanism. Extensive experiments on the ScanNetV2, ScanNet++, ScanNet200 and S3DIS datasets demonstrate the superior performance of Relation3D.
- Abstract(参考訳): 3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。
現在、トランスフォーマーベースの手法は、エレガントなパイプラインと優れた予測のために注目を集めている。
しかし,これらの手法は主にマスマスキングによるシーン特徴とクエリ特徴の外部関係のモデル化に重点を置いている。
シーン機能とクエリ機能の間の内部関係の効果的なモデリングは欠如している。
これらの欠点を考慮して, ポイントクラウドインスタンスセグメンテーションにおける関係モデリングの強化を提案する。
具体的には、アダプティブなスーパーポイントアグリゲーションモジュールとコントラッシブな学習誘導型スーパーポイントリファインメントモジュールを導入し、スーパーポイント特徴(シーン特徴)をよりよく表現し、コントラッシブな学習を活用してこれらの特徴の更新をガイドする。
さらに,関係認識型自己アテンション機構は,位置関係と幾何学的関係を自己アテンション機構に組み込むことで,クエリ間の関係をモデル化する能力を高める。
ScanNetV2、ScanNet++、ScanNet200、S3DISデータセットに関する大規模な実験は、Relation3Dの優れたパフォーマンスを示している。
関連論文リスト
- EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - VSFormer: Mining Correlations in Flexible View Set for Multi-view 3D Shape Understanding [9.048401253308123]
本稿では,複数の視点に対するフレキシブルな組織と明示的な相関学習について検討する。
我々は,集合内のすべての要素の対関係と高次相関を明示的に捉えるために,emphVSFormerというニブルトランスフォーマーモデルを考案した。
ModelNet40、ScanObjectNN、RGBDなど、さまざまな3D認識データセットの最先端結果に到達している。
論文 参考訳(メタデータ) (2024-09-14T01:48:54Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。
我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文 参考訳(メタデータ) (2023-12-05T11:33:16Z) - Position-Guided Point Cloud Panoptic Segmentation Transformer [118.17651196656178]
この作業は、LiDARベースのポイントクラウドセグメンテーションにこの魅力的なパラダイムを適用し、シンプルだが効果的なベースラインを得ることから始まります。
スパース点雲のインスタンスはシーン全体に対して比較的小さく、しばしば類似した形状を持つが、画像領域では珍しいセグメンテーションの外観が欠如している。
position-guided Point cloud Panoptic segmentation transFormer (P3Former) と名付けられたこの手法は、Semantic KITTI と nuScenes のベンチマークでそれぞれ3.4%、そして 1.2%の性能をそれぞれ上回っている。
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - Background-Aware 3D Point Cloud Segmentationwith Dynamic Point Feature
Aggregation [12.093182949686781]
DPFA-Net(Dynamic Point Feature Aggregation Network)と呼ばれる新しい3Dポイント・クラウド・ラーニング・ネットワークを提案する。
DPFA-Netにはセマンティックセグメンテーションと3Dポイントクラウドの分類のための2つのバリエーションがある。
S3DISデータセットのセマンティックセグメンテーションのための、最先端の全体的な精度スコアを達成する。
論文 参考訳(メタデータ) (2021-11-14T05:46:05Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。