論文の概要: 3D-GRES: Generalized 3D Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2407.20664v1
- Date: Tue, 30 Jul 2024 08:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:49:53.079479
- Title: 3D-GRES: Generalized 3D Referring Expression Segmentation
- Title(参考訳): 3D-GRES: 一般化された3D参照式セグメンテーション
- Authors: Changli Wu, Yihang Liu, Jiayi Ji, Yiwei Ma, Haowei Wang, Gen Luo, Henghui Ding, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: 3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
- 参考スコア(独自算出の注目度): 77.10044505645064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Referring Expression Segmentation (3D-RES) is dedicated to segmenting a specific instance within a 3D space based on a natural language description. However, current approaches are limited to segmenting a single target, restricting the versatility of the task. To overcome this limitation, we introduce Generalized 3D Referring Expression Segmentation (3D-GRES), which extends the capability to segment any number of instances based on natural language instructions. In addressing this broader task, we propose the Multi-Query Decoupled Interaction Network (MDIN), designed to break down multi-object segmentation tasks into simpler, individual segmentations. MDIN comprises two fundamental components: Text-driven Sparse Queries (TSQ) and Multi-object Decoupling Optimization (MDO). TSQ generates sparse point cloud features distributed over key targets as the initialization for queries. Meanwhile, MDO is tasked with assigning each target in multi-object scenarios to different queries while maintaining their semantic consistency. To adapt to this new task, we build a new dataset, namely Multi3DRes. Our comprehensive evaluations on this dataset demonstrate substantial enhancements over existing models, thus charting a new path for intricate multi-object 3D scene comprehension. The benchmark and code are available at https://github.com/sosppxo/3D-GRES.
- Abstract(参考訳): 3D参照式セグメンテーション(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
しかし、現在のアプローチは単一のターゲットをセグメント化することに限定され、タスクの汎用性を制限する。
この制限を克服するために、自然言語命令に基づいて任意のインスタンスをセグメント化できるGeneralized 3D Referring Expression Segmentation (3D-GRES)を導入する。
この課題に対処するために,多目的セグメンテーションタスクをより単純な個別セグメンテーションに分割する,MDIN(Multi-Query Decoupled Interaction Network)を提案する。
MDINはテキスト駆動スパースクエリ(TSQ)とマルチオブジェクトデカップリング最適化(MDO)の2つの基本コンポーネントから構成される。
TSQは、クエリの初期化としてキーターゲット上に分散されたスパースポイントクラウド機能を生成する。
一方、MDOは、セマンティック一貫性を維持しながら、複数のオブジェクトシナリオのそれぞれのターゲットを異なるクエリに割り当てる。
このタスクに適応するために、我々は新しいデータセット、すなわちMulti3DRを構築します。
このデータセットに対する総合的な評価は、既存のモデルよりも大幅に拡張され、複雑な多目的3Dシーン理解のための新しいパスがチャート化される。
ベンチマークとコードはhttps://github.com/sosppxo/3D-GRESで公開されている。
関連論文リスト
- RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - A One Stop 3D Target Reconstruction and multilevel Segmentation Method [0.0]
オープンソースのワンストップ3Dターゲット再構成とマルチレベルセグメンテーションフレームワーク(OSTRA)を提案する。
OSTRAは2D画像上でセグメンテーションを行い、画像シーケンス内のセグメンテーションラベルで複数のインスタンスを追跡し、ラベル付き3Dオブジェクトまたは複数のパーツをMulti-View Stereo(MVS)またはRGBDベースの3D再構成手法で再構成する。
本手法は,複雑なシーンにおいて,リッチなマルチスケールセグメンテーション情報に埋め込まれた3次元ターゲットを再構築するための新たな道を開く。
論文 参考訳(メタデータ) (2023-08-14T07:12:31Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。