論文の概要: Kestrel: Point Grounding Multimodal LLM for Part-Aware 3D Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2405.18937v1
- Date: Wed, 29 May 2024 09:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 17:49:44.156067
- Title: Kestrel: Point Grounding Multimodal LLM for Part-Aware 3D Vision-Language Understanding
- Title(参考訳): Kestrel: 部分認識3次元視覚言語理解のためのポイントグラウンドマルチモーダルLLM
- Authors: Junjie Fei, Mahmoud Ahmed, Jian Ding, Eslam Mohamed Bakr, Mohamed Elhoseiny,
- Abstract要約: 3次元MLLMはオブジェクトとシーンの理解に限られており、部分レベルの3次元空間構造を理解するのに苦労する。
本稿では,3次元MLLMをパーシャル・アウェア・理解で活用する新しい手法としてケストレルを紹介する。
私たちが導入したタスク、データセット、ケストレルは、人間の認知と3DMLLMのギャップを埋めるための予備的な取り組みである。
- 参考スコア(独自算出の注目度): 33.55332803244455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While 3D MLLMs have achieved significant progress, they are restricted to object and scene understanding and struggle to understand 3D spatial structures at the part level. In this paper, we introduce Kestrel, representing a novel approach that empowers 3D MLLMs with part-aware understanding, enabling better interpretation and segmentation grounding of 3D objects at the part level. Despite its significance, the current landscape lacks tasks and datasets that endow and assess this capability. Therefore, we propose two novel tasks: (1) Part-Aware Point Grounding, the model is tasked with directly predicting a part-level segmentation mask based on user instructions, and (2) Part-Aware Point Grounded Captioning, the model provides a detailed caption that includes part-level descriptions and their corresponding masks. To support learning and evaluating for these tasks, we introduce 3DCoMPaT Grounded Instructions Dataset (3DCoMPaT-GRIN). 3DCoMPaT-GRIN Vanilla, comprising 789k part-aware point cloud-instruction-segmentation mask triplets, is used to evaluate MLLMs' ability of part-aware segmentation grounding. 3DCoMPaT-GRIN Grounded Caption, containing 107k part-aware point cloud-instruction-grounded caption triplets, assesses both MLLMs' part-aware language comprehension and segmentation grounding capabilities. Our introduced tasks, dataset, and Kestrel represent a preliminary effort to bridge the gap between human cognition and 3D MLLMs, i.e., the ability to perceive and engage with the environment at both global and part levels. Extensive experiments on the 3DCoMPaT-GRIN show that Kestrel can generate user-specified segmentation masks, a capability not present in any existing 3D MLLM. Kestrel thus established a benchmark for evaluating the part-aware language comprehension and segmentation grounding of 3D objects. Project page at https://feielysia.github.io/Kestrel.github.io/
- Abstract(参考訳): 3次元MLLMは大きな進歩を遂げているが、それらは物体やシーンの理解に限られており、部分レベルの3次元空間構造を理解するのに苦労している。
本稿では,3次元MLLMをパート認識で活用し,パートレベルでの3次元オブジェクトの解釈とセグメンテーションのグラウンディングを向上する,新しいアプローチを示すケストレルを紹介する。
その重要性にも拘わらず、現在の状況には、この機能を補完し評価するタスクやデータセットが欠けている。
そこで本研究では,(1)部分認識ポイントグラウンディング(Part-Aware Point Grounding),(2)部分認識ポイントグラウンドドキャプション(Part-Aware Point Grounded Captioning),(2)部分認識ポイントグラウンドドキャプション(Part-Aware Point Grounded Captioning)という2つの新しいタスクを提案する。
これらの課題の学習と評価を支援するために,3DCoMPaT Grounded Instructions Dataset(3DCoMPaT-GRIN)を紹介する。
3DCoMPaT-GRINバニラは、789k個の部分認識点雲分離マスク三重項から構成され、部分認識セグメンテーショングラウンドディングのMLLMの能力を評価するために使用される。
3DCoMPaT-GRIN Grounded Captionは107kのパート対応のクラウドインストラクショングラウンド付きキャプショントレーレットを含み、MLLMのパート対応言語理解とセグメンテーショングラウンド機能の両方を評価する。
導入したタスク,データセット,ケストレルは,人間の認知と3次元MLLMのギャップを埋めるための予備的な取り組みである。
3DCoMPaT-GRINの大規模な実験により、ケストレルは既存の3DMLLMには存在しないユーザ指定セグメンテーションマスクを生成できることが示されている。
そこでケストレルは、3Dオブジェクトの理解とセグメンテーションの基盤を評価するためのベンチマークを構築した。
Project page at https://feielysia.github.io/Kestrel.github.io/
関連論文リスト
- Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。
Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。
我々はFun3DUをSceneFun3D上で評価する。
論文 参考訳(メタデータ) (2024-11-25T11:57:48Z) - 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。