Fugu-MT 論文翻訳(概要): MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation

論文の概要: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation

arxiv url: http://arxiv.org/abs/2411.01781v1
Date: Mon, 04 Nov 2024 04:14:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.934727
Title: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation
Title（参考訳）: MSTA3D: 3Dインスタンスセグメンテーションのためのマルチスケールツインアテンション
Authors: Duc Dang Trung Tran, Byeongkeun Kang, Yeejin Lee,
Abstract要約: MSTA3Dはスーパーポイントベースの3Dインスタンスセグメンテーションのための新しいフレームワークである。マルチスケールの特徴表現を利用し、それらを効果的にキャプチャするためのツインアテンション機構を導入している。我々の手法は最先端の3Dインスタンスセグメンテーション手法を超越している。
参考スコア（独自算出の注目度）: 7.400926717561454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, transformer-based techniques incorporating superpoints have become prevalent in 3D instance segmentation. However, they often encounter an over-segmentation problem, especially noticeable with large objects. Additionally, unreliable mask predictions stemming from superpoint mask prediction further compound this issue. To address these challenges, we propose a novel framework called MSTA3D. It leverages multi-scale feature representation and introduces a twin-attention mechanism to effectively capture them. Furthermore, MSTA3D integrates a box query with a box regularizer, offering a complementary spatial constraint alongside semantic queries. Experimental evaluations on ScanNetV2, ScanNet200 and S3DIS datasets demonstrate that our approach surpasses state-of-the-art 3D instance segmentation methods.
Abstract（参考訳）: 近年,3次元インスタンスセグメンテーションにおいて,スーパーポイントを組み込んだトランスフォーマー技術が普及している。しかし、それらはしばしば過分な問題に遭遇し、特に大きな物体では顕著である。さらに、スーパーポイントマスク予測から生じる信頼性の低いマスク予測は、この問題をさらに複雑にする。これらの課題に対処するため,我々はMSTA3Dと呼ばれる新しいフレームワークを提案する。マルチスケールの機能表現を活用し、それらを効果的にキャプチャするためのツインアテンションメカニズムを導入している。さらに、MSTA3Dはボックスクエリとボックス正規化器を統合し、セマンティッククエリと相補的な空間制約を提供する。 ScanNetV2, ScanNet200, S3DISデータセットの実験的評価により, 本手法が最先端の3Dインスタンスセグメンテーション手法を超えることを示す。

関連論文リスト

Integrating SAM Supervision for 3D Weakly Supervised Point Cloud Segmentation [66.65719382619538]
3Dセマンティックセグメンテーションの現在の手法では、大きな、不規則な、秩序のない3Dポイントクラウドデータの注釈付けの難しさに対処するため、限定アノテーション付きトレーニングモデルが提案されている。本稿では,2次元基礎モデルから生成したセグメンテーションマスクを組み込んだ,疎可な3次元アノテーションの有用性を最大化する手法を提案する。
論文参考訳（メタデータ） (2025-08-27T14:13:01Z)
Any3DIS: Class-Agnostic 3D Instance Segmentation by 2D Mask Tracking [6.599971425078935]
既存の3Dインスタンスセグメンテーションメソッドは、オーバーセグメンテーションの問題に頻繁に遭遇し、下流タスクを複雑にする冗長で不正確な3D提案につながります。この課題は、フレーム全体に密集した2Dマスクを点雲に上げ、直接の監督なしに3D候補の提案を形成する、教師なしのマージンアプローチから生じる。本研究では,2次元マスクセグメンテーション・トラッキング基盤モデル(SAM-2)を用いて,映像フレーム間の一貫したオブジェクトマスクを確保する3次元マスク追跡モジュールを提案する。
論文参考訳（メタデータ） (2024-11-25T08:26:31Z)
SA3DIP: Segment Any 3D Instance with Potential 3D Priors [41.907914881608995]
本稿では,SA3DIPを提案する。SA3DIPは,任意の3Dインスタンスを,潜在的3Dプライオリティを利用してセグメント化するための新しい手法である。具体的には,幾何学的およびテクスチャ的先行性の両方に基づいて,相補的な3Dプリミティブを生成する。一方,3次元検出器を用いて3次元空間からの補足制約を導入し,さらなるマージプロセスの導出を行う。
論文参考訳（メタデータ） (2024-11-06T10:39:00Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。 3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文参考訳（メタデータ） (2023-12-17T10:07:03Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box Annotations for Autonomous Driving [13.08936676096554]
我々はMultimodal Weakly Supervised Instance (MWSIS)と呼ばれる新しいフレームワークを提案する。 MWSISは、様々な細粒度ラベルの生成と修正モジュールを2Dと3Dの両方に組み込んでいる。完全に教師されたインスタンスセグメンテーションよりも優れており、完全に教師されたアノテーションはわずか5%である。
論文参考訳（メタデータ） (2023-12-12T05:12:22Z)
Mask-Attention-Free Transformer for 3D Instance Segmentation [68.29828726317723]
トランスフォーマーベースの手法は、マスクの注意が一般的に関与する3Dインスタンスセグメンテーションを支配している。我々は、低リコール問題を克服し、位置対応を前提としたクロスアテンションを実現するために、一連の位置認識設計を開発する。実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2023-09-04T16:09:28Z)
Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。 Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。 Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文参考訳（メタデータ） (2022-10-06T17:55:09Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。