Fugu-MT 論文翻訳(概要): SegPoint: Segment Any Point Cloud via Large Language Model

論文の概要: SegPoint: Segment Any Point Cloud via Large Language Model

arxiv url: http://arxiv.org/abs/2407.13761v1
Date: Thu, 18 Jul 2024 17:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:12:02.265446
Title: SegPoint: Segment Any Point Cloud via Large Language Model
Title（参考訳）: SegPoint: 大規模言語モデルによる任意のポイントクラウドのセグメンテーション
Authors: Shuting He, Henghui Ding, Xudong Jiang, Bihan Wen,
Abstract要約: 我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。 SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
参考スコア（独自算出の注目度）: 62.69797122055389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite significant progress in 3D point cloud segmentation, existing methods primarily address specific tasks and depend on explicit instructions to identify targets, lacking the capability to infer and understand implicit user intentions in a unified framework. In this work, we propose a model, called SegPoint, that leverages the reasoning capabilities of a multi-modal Large Language Model (LLM) to produce point-wise segmentation masks across a diverse range of tasks: 1) 3D instruction segmentation, 2) 3D referring segmentation, 3) 3D semantic segmentation, and 4) 3D open-vocabulary semantic segmentation. To advance 3D instruction research, we introduce a new benchmark, Instruct3D, designed to evaluate segmentation performance from complex and implicit instructional texts, featuring 2,565 point cloud-instruction pairs. Our experimental results demonstrate that SegPoint achieves competitive performance on established benchmarks such as ScanRefer for referring segmentation and ScanNet for semantic segmentation, while delivering outstanding outcomes on the Instruct3D dataset. To our knowledge, SegPoint is the first model to address these varied segmentation tasks within a single framework, achieving satisfactory performance.
Abstract（参考訳）: 3Dポイントクラウドセグメンテーションの大幅な進歩にもかかわらず、既存のメソッドは主に特定のタスクに対処し、ターゲットを特定するための明示的な命令に依存している。本研究では,多モーダル大規模言語モデル(LLM)の推論機能を利用して,多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointというモデルを提案する。 1)3次元命令セグメンテーション 2)3D参照セグメンテーション 3)3次元セマンティックセグメンテーション,及び 4)3次元オープン語彙セマンティックセマンティックセグメンテーション。本研究では,2,565点のクラウド・インストラクションペアを特徴とする,複雑な命令文と暗黙的な命令文からセグメンテーション性能を評価するための新しいベンチマークであるInstruct3Dを提案する。 ScanReferはセグメンテーションに,ScanNetはセグメンテーションに,ScanNetはセグメンテーションのセグメンテーションに,ScanPointはInstruct3Dデータセットに優れた結果をもたらす。私たちの知る限り、SegPointは、これらの様々なセグメンテーションタスクを単一のフレームワークで対処する最初のモデルであり、良好なパフォーマンスを実現しています。

関連論文リスト

COS3D: Collaborative Open-Vocabulary 3D Segmentation [86.41533122575981]
COS3Dは、新しい協調的なプロンプトセグメンテーションフレームワークである。まず、インスタンスフィールドと言語フィールドからなる協調フィールドという新しい概念を紹介する。推論において,2つの分野の異なる特徴をブリッジするために,適応型言語からインスタンスへの即時改善を設計する。
論文参考訳（メタデータ） (2025-10-23T05:45:15Z)
OpenMaskDINO3D : Reasoning 3D Segmentation via Large Language Model [0.0]
本稿では,包括的3次元理解とセグメンテーションのためのフレームワークであるOpenMaskDINO3Dを紹介する。 OpenMaskDINO3Dは、ポイントクラウドデータとテキストプロンプトを処理し、多くの3Dタスクで優れたインスタンスセグメンテーションマスクを生成する。
論文参考訳（メタデータ） (2025-06-05T09:57:43Z)
BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis [33.53327976669034]
より粒度の細かいレンズを通して3Dセマンティックセマンティックセグメンテーションを再考し、より広範なパフォーマンス指標によって隠蔽される微妙な複雑さに光を当てます。本稿では,BFANetと呼ばれる3次元セマンティックセマンティック・セマンティック・ネットワークを導入し,セマンティック・バウンダリの特徴を詳細に分析する。
論文参考訳（メタデータ） (2025-03-16T15:13:11Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文参考訳（メタデータ） (2024-07-30T08:59:05Z)
RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。 RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-07-25T17:58:03Z)
PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文参考訳（メタデータ） (2024-04-04T23:38:45Z)
Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-04-02T17:59:10Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
Instance-aware 3D Semantic Segmentation powered by Shape Generators and Classifiers [28.817905887080293]
本稿では,3次元セマンティックセグメンテーションのための新しいインスタンス認識手法を提案する。本手法は,学習した特徴表現の一貫性を促進するために,インスタンスレベルでの幾何処理タスクを組み合わせる。
論文参考訳（メタデータ） (2023-11-21T02:14:16Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。