論文の概要: Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.19326v1
- Date: Wed, 29 May 2024 17:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 15:52:40.432356
- Title: Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models
- Title(参考訳): Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models
- Authors: Tianrun Chen, Chunan Yu, Jing Li, Jianqi Zhang, Lanyun Zhu, Deyi Ji, Yong Zhang, Ying Zang, Zejian Li, Lingyun Sun,
- Abstract要約: オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
- 参考スコア(独自算出の注目度): 20.277479473218513
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce a new task: Zero-Shot 3D Reasoning Segmentation for parts searching and localization for objects, which is a new paradigm to 3D segmentation that transcends limitations for previous category-specific 3D semantic segmentation, 3D instance segmentation, and open-vocabulary 3D segmentation. We design a simple baseline method, Reasoning3D, with the capability to understand and execute complex commands for (fine-grained) segmenting specific parts for 3D meshes with contextual awareness and reasoned answers for interactive segmentation. Specifically, Reasoning3D leverages an off-the-shelf pre-trained 2D segmentation network, powered by Large Language Models (LLMs), to interpret user input queries in a zero-shot manner. Previous research have shown that extensive pre-training endows foundation models with prior world knowledge, enabling them to comprehend complex commands, a capability we can harness to "segment anything" in 3D with limited 3D datasets (source efficient). Experimentation reveals that our approach is generalizable and can effectively localize and highlight parts of 3D objects (in 3D mesh) based on implicit textual queries, including these articulated 3d objects and real-world scanned data. Our method can also generate natural language explanations corresponding to these 3D models and the decomposition. Moreover, our training-free approach allows rapid deployment and serves as a viable universal baseline for future research of part-level 3d (semantic) object understanding in various fields including robotics, object manipulation, part assembly, autonomous driving applications, augment reality and virtual reality (AR/VR), and medical applications. The code, the model weight, the deployment guide, and the evaluation protocol are: http://tianrun-chen.github.io/Reason3D/
- Abstract(参考訳): 本稿では,オブジェクトの検索とローカライズのためのゼロショット3D推論セグメンテーション(Zero-Shot 3D Reasoning Segmentation)を提案する。これは,従来のカテゴリ固有の3Dセグメンテーション,3Dインスタンスセグメンテーション,オープンボキャブラリ3Dセグメンテーションの制限を超越する3Dセグメンテーションの新しいパラダイムである。
我々は,コンテキスト認識と対話的セグメンテーションのための推論解を用いた3Dメッシュの特定の部分を(きめ細かな)セグメンテーションするために,複雑なコマンドを理解し,実行するためのシンプルなベースライン手法Reasoning3Dを設計する。
具体的には、Reasoning3DはLarge Language Models (LLMs) を利用した既製の2Dセグメンテーションネットワークを利用して、ゼロショットでユーザ入力クエリを解釈する。
従来の研究では、事前学習した基金モデルに事前知識が組み込まれており、複雑なコマンドを理解でき、限られた3Dデータセット(ソース効率)で3Dで「何でも分離」できる能力が示されていた。
実験により,本手法は一般化可能であり,これらの3次元オブジェクトや実世界のスキャンデータを含む暗黙のテキストクエリに基づいて3次元オブジェクトの一部(3次元メッシュ)を効果的にローカライズし,ハイライトすることができることがわかった。
提案手法は,これらの3次元モデルと分解に対応する自然言語説明を生成することができる。
さらに,ロボット工学,オブジェクト操作,部品組立,自律運転アプリケーション,拡張現実とバーチャルリアリティ(AR/VR),医療アプリケーションなど,さまざまな分野における3D(セマンティック)オブジェクト理解の研究において,迅速な展開を可能にするとともに,将来的なユニバーサルベースラインとして機能する。
コード、モデルウェイト、デプロイメントガイド、評価プロトコルは以下のとおりである。
関連論文リスト
- 3x2: 3D Object Part Segmentation by 2D Semantic Correspondences [33.99493183183571]
本稿では,いくつかのアノテーション付き3D形状やリッチアノテーション付き2Dデータセットを活用して3Dオブジェクト部分のセグメンテーションを実現することを提案する。
我々は,様々な粒度レベルのベンチマークでSOTA性能を実現する3-By-2という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T19:08:00Z) - 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data [0.0]
2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
論文 参考訳(メタデータ) (2024-06-19T08:00:35Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。