論文の概要: 3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer
- arxiv url: http://arxiv.org/abs/2501.01163v1
- Date: Thu, 02 Jan 2025 09:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:44.305553
- Title: 3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer
- Title(参考訳): 3D-LLaVA:Omni Superpoint Transformerを用いた汎用3D LMMの実現に向けて
- Authors: Jiajun Deng, Tianyu He, Li Jiang, Tianyu Wang, Feras Dayoub, Ian Reid,
- Abstract要約: 3D-LLaVAは,3D世界の理解,推論,対話において,インテリジェントなアシスタントとして機能するように設計された,シンプルかつ強力な3D LMMである。
3D-LLaVAのコアには、3つの機能を統合する新しいOmni Superpoint Transformer (OST)がある。
- 参考スコア(独自算出の注目度): 33.42183318484381
- License:
- Abstract: Current 3D Large Multimodal Models (3D LMMs) have shown tremendous potential in 3D-vision-based dialogue and reasoning. However, how to further enhance 3D LMMs to achieve fine-grained scene understanding and facilitate flexible human-agent interaction remains a challenging problem. In this work, we introduce 3D-LLaVA, a simple yet highly powerful 3D LMM designed to act as an intelligent assistant in comprehending, reasoning, and interacting with the 3D world. Unlike existing top-performing methods that rely on complicated pipelines-such as offline multi-view feature extraction or additional task-specific heads-3D-LLaVA adopts a minimalist design with integrated architecture and only takes point clouds as input. At the core of 3D-LLaVA is a new Omni Superpoint Transformer (OST), which integrates three functionalities: (1) a visual feature selector that converts and selects visual tokens, (2) a visual prompt encoder that embeds interactive visual prompts into the visual token space, and (3) a referring mask decoder that produces 3D masks based on text description. This versatile OST is empowered by the hybrid pretraining to obtain perception priors and leveraged as the visual connector that bridges the 3D data to the LLM. After performing unified instruction tuning, our 3D-LLaVA reports impressive results on various benchmarks. The code and model will be released to promote future exploration.
- Abstract(参考訳): 現在の3次元大規模マルチモーダルモデル(3D LMM)は、3次元ビジョンに基づく対話や推論において大きな可能性を示している。
しかし、3D LMMをさらに強化して、きめ細かいシーン理解を実現し、フレキシブルな人間とエージェントの相互作用を促進する方法は、依然として難しい問題である。
本研究では,3D世界の理解,推論,インタラクションにおいて,インテリジェントなアシスタントとして機能する,シンプルながら強力な3D LMMである3D-LLaVAを紹介する。
オフラインのマルチビュー機能抽出や追加のタスク固有のヘッド-3D-LLaVAのような複雑なパイプラインに依存する既存のトップパフォーマンスメソッドとは異なり、統合アーキテクチャによる最小限の設計を採用しており、入力としてポイントクラウドのみを取る。
3D-LLaVAのコアには、(1)視覚トークンを変換して選択する視覚特徴セレクタ、(2)視覚トークン空間にインタラクティブな視覚プロンプトを埋め込む視覚プロンプトエンコーダ、(3)テキスト記述に基づいて3Dマスクを生成する参照マスクデコーダの3つの機能を統合した新しいOmni Superpoint Transformer (OST)がある。
この汎用OSTは、3DデータをLLMにブリッジする視覚コネクタとして活用される。
統一的なインストラクションチューニングを行った後、3D-LLaVAは様々なベンチマークで印象的な結果を報告した。
コードとモデルは、将来の探索を促進するためにリリースされます。
関連論文リスト
- 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - ShapeLLM: Universal 3D Object Understanding for Embodied Interaction [37.0434133128805]
本稿では,3次元マルチモーダル大言語モデル(LLM)を具体化して構築したShapeLLMについて述べる。
ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダの上に構築されている。
ShapeLLMは、構築された命令追従データに基づいてトレーニングされ、新しい人為的なベンチマークである3D MM-Vetでテストされる。
論文 参考訳(メタデータ) (2024-02-27T18:57:12Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。