論文の概要: OpenMaskDINO3D : Reasoning 3D Segmentation via Large Language Model
- arxiv url: http://arxiv.org/abs/2506.04837v1
- Date: Thu, 05 Jun 2025 09:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.648297
- Title: OpenMaskDINO3D : Reasoning 3D Segmentation via Large Language Model
- Title(参考訳): OpenMaskDINO3D : 大規模言語モデルによる3次元セグメンテーションの推論
- Authors: Kunshen Zhang,
- Abstract要約: 本稿では,包括的3次元理解とセグメンテーションのためのフレームワークであるOpenMaskDINO3Dを紹介する。
OpenMaskDINO3Dは、ポイントクラウドデータとテキストプロンプトを処理し、多くの3Dタスクで優れたインスタンスセグメンテーションマスクを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although perception systems have made remarkable advancements in recent years, particularly in 2D reasoning segmentation, these systems still rely on explicit human instruction or pre-defined categories to identify target objects before executing visual recognition tasks. Such systems have matured significantly, demonstrating the ability to reason and comprehend implicit user intentions in two-dimensional contexts, producing accurate segmentation masks based on complex and implicit query text. However, a comparable framework and structure for 3D reasoning segmentation remain absent. This paper introduces OpenMaskDINO3D, a LLM designed for comprehensive 3D understanding and segmentation. OpenMaskDINO3D processes point cloud data and text prompts to produce instance segmentation masks, excelling in many 3D tasks. By introducing a SEG token and object identifier, we achieve high-precision 3D segmentation mask generation, enabling the model to directly produce accurate point cloud segmentation results from natural language instructions. Experimental results on large-scale ScanNet datasets validate the effectiveness of our OpenMaskDINO3D across various tasks.
- Abstract(参考訳): 認識システムは近年、特に2次元推論セグメンテーションにおいて顕著な進歩を遂げているが、これらのシステムは、視覚認識タスクを実行する前にターゲットオブジェクトを特定するために、明示的な人間の指示や事前定義されたカテゴリに依存している。
このようなシステムは大きく成熟し、2次元の文脈で暗黙のユーザ意図を推論し理解する能力を示し、複雑で暗黙のクエリテキストに基づく正確なセグメンテーションマスクを生成する。
しかし、3D推論のセグメンテーションに匹敵するフレームワークと構造はいまだに存在しない。
本稿では,包括的3次元理解とセグメンテーションを目的としたLLMであるOpenMaskDINO3Dを紹介する。
OpenMaskDINO3Dは、ポイントクラウドデータとテキストプロンプトを処理し、多くの3Dタスクで優れたインスタンスセグメンテーションマスクを生成する。
SEGトークンとオブジェクト識別子を導入することで,高精度な3Dセグメンテーションマスク生成を実現し,自然言語命令から正確なポイントクラウドセグメンテーション結果を直接生成することができる。
大規模ScanNetデータセットの実験結果は、OpenMaskDINO3Dの有効性を様々なタスクで検証する。
関連論文リスト
- MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。