論文の概要: M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts
- arxiv url: http://arxiv.org/abs/2312.10763v1
- Date: Sun, 17 Dec 2023 16:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:49:21.654598
- Title: M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts
- Title(参考訳): M3DBench: マルチモーダル3Dプロンプトで大規模モデルをインストラクションする
- Authors: Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun
Yin, Gang Yu, Tao Chen
- Abstract要約: M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
- 参考スコア(独自算出の注目度): 30.571811801090224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, 3D understanding has become popular to facilitate autonomous agents
to perform further decisionmaking. However, existing 3D datasets and methods
are often limited to specific tasks. On the other hand, recent progress in
Large Language Models (LLMs) and Multimodal Language Models (MLMs) have
demonstrated exceptional general language and imagery tasking performance.
Therefore, it is interesting to unlock MLM's potential to be 3D generalist for
wider tasks. However, current MLMs' research has been less focused on 3D tasks
due to a lack of large-scale 3D instruction-following datasets. In this work,
we introduce a comprehensive 3D instructionfollowing dataset called M3DBench,
which possesses the following characteristics: 1) It supports general
multimodal instructions interleaved with text, images, 3D objects, and other
visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels,
covering a variety of fundamental abilities in real-world 3D environments. 3)
It is a large-scale 3D instruction-following dataset with over 320k
instruction-response pairs. Furthermore, we establish a new benchmark for
assessing the performance of large models in understanding multi-modal 3D
prompts. Extensive experiments demonstrate the effectiveness of our dataset and
baseline, supporting general 3D-centric tasks, which can inspire future
research.
- Abstract(参考訳): 近年,自律エージェントのさらなる意思決定を促進するために3D理解が普及している。
しかし、既存の3Dデータセットとメソッドは、しばしば特定のタスクに限定される。
一方,Large Language Models (LLMs) とMultimodal Language Models (MLMs) の最近の進歩は,優れた汎用言語と画像処理性能を示している。
したがって、より広いタスクで3dジェネラリストになるmlmの可能性を解き放つのは興味深い。
しかし、MLMの現在の研究は、大規模な3D命令追従データセットが不足しているため、3Dタスクに注力していない。
本稿では,M3DBenchと呼ばれる包括的3Dインストラクション追従データセットについて紹介する。
1)テキスト,画像,3Dオブジェクト,その他の視覚的プロンプトをインターリーブした一般的なマルチモーダル命令をサポートする。
2)現実世界の3D環境において,多様な3Dタスクを領域レベルとシーンレベルで統一し,様々な基本能力をカバーしている。
3)320k以上の命令応答対を持つ大規模3次元命令追従データセットである。
さらに,マルチモーダル3dプロンプトの理解において,大規模モデルの性能を評価するための新しいベンチマークを確立する。
大規模な実験は、我々のデータセットとベースラインの有効性を示し、将来の研究を刺激する一般的な3D中心のタスクをサポートします。
関連論文リスト
- 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - An Embodied Generalist Agent in 3D World [69.4042892362275]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを提案する。
提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。
LEOの卓越した能力は,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など多岐にわたる。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [103.58388549764302]
本研究では,3次元オブジェクトの汎用言語を自動生成するトリオモーダル事前学習フレームワークを開発した。
3Dアノテーションを一切必要とせず、従って大規模なデータセットにスケーラブルである。
ModelNet40では、下流のゼロショット分類が大幅に改善されている。
現実世界のScanObjectNNベンチマークでは、91.5%の精度で、パラメータはわずか1.4万である。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。