論文の概要: Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model
- arxiv url: http://arxiv.org/abs/2405.17427v1
- Date: Mon, 27 May 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 13:52:58.330865
- Title: Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model
- Title(参考訳): Reason3D:大規模言語モデルによる3次元セグメンテーションの探索と推論
- Authors: Kuan-Chih Huang, Xiangtai Li, Lu Qi, Shuicheng Yan, Ming-Hsuan Yang,
- Abstract要約: 本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
- 参考スコア(独自算出の注目度): 108.35777542298224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models (LLMs) have shown their potential in various domains, especially concept reasoning. Despite these developments, applications in understanding 3D environments remain limited. This paper introduces Reason3D, a novel LLM designed for comprehensive 3D understanding. Reason3D takes point cloud data and text prompts as input to produce textual responses and segmentation masks, facilitating advanced tasks like 3D reasoning segmentation, hierarchical searching, express referring, and question answering with detailed mask outputs. Specifically, we propose a hierarchical mask decoder to locate small objects within expansive scenes. This decoder initially generates a coarse location estimate covering the object's general area. This foundational estimation facilitates a detailed, coarse-to-fine segmentation strategy that significantly enhances the precision of object identification and segmentation. Experiments validate that Reason3D achieves remarkable results on large-scale ScanNet and Matterport3D datasets for 3D express referring, 3D question answering, and 3D reasoning segmentation tasks. Code and models are available at: https://github.com/KuanchihHuang/Reason3D.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)の最近の進歩は、様々な領域、特に概念推論においてその可能性を示している。
これらの発展にもかかわらず、3D環境を理解するための応用は依然として限られている。
本稿では,包括的3次元理解を目的としたLLMであるReason3Dを紹介する。
Reason3Dは、ポイントクラウドデータとテキストプロンプトを入力として、テキスト応答とセグメンテーションマスクを生成し、3D推論セグメンテーション、階層検索、参照表現、詳細なマスク出力による質問応答などの高度なタスクを容易にする。
具体的には,階層型マスクデコーダを提案する。
このデコーダは、対象の一般領域をカバーする粗い位置推定を生成する。
この基礎推定は、オブジェクトの識別とセグメンテーションの精度を大幅に向上させる、細かな、粗いセグメンテーション戦略を促進する。
Reason3Dが大規模ScanNetおよびMatterport3Dデータセットにおいて、3D表現参照、3D質問応答、3D推論セグメンテーションタスクにおいて顕著な結果が得られることを検証する。
コードとモデルは、https://github.com/KuanchihHuang/Reason3D.comで入手できる。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data [0.0]
2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
論文 参考訳(メタデータ) (2024-06-19T08:00:35Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Think-Program-reCtify: 3D Situated Reasoning with Large Language Models [68.52240087262825]
本研究は,3次元環境における自我中心の観察から得られる質問に答えることを目的とした3次元位置推論課題に対処する。
我々は,ThinkProgram-reCtifyループを通じて,大規模言語モデル(LLM)の計画,ツール使用,リフレクション機能を活用する新しいフレームワークを提案する。
SQA3Dベンチマークの実験と解析により,本手法の有効性,解釈可能性,ロバスト性を実証した。
論文 参考訳(メタデータ) (2024-04-23T03:22:06Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes [35.38074724231105]
UnScene3Dは、クラスに依存しない屋内スキャンの3Dインスタンスセグメンテーションのための、完全に教師なしの3D学習アプローチである。
高分解能な3次元データに基づく効率的な表現と学習を可能にする。
提案手法は,最先端の教師なし3次元インスタンス分割法を平均精度300%以上で改善する。
論文 参考訳(メタデータ) (2023-03-25T19:15:16Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。