論文の概要: ShapeLLM: Universal 3D Object Understanding for Embodied Interaction
- arxiv url: http://arxiv.org/abs/2402.17766v2
- Date: Wed, 6 Mar 2024 15:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 20:44:04.952494
- Title: ShapeLLM: Universal 3D Object Understanding for Embodied Interaction
- Title(参考訳): shapellm: エンボディドインタラクションのためのユニバーサル3dオブジェクト理解
- Authors: Zekun Qi, Runpei Dong, Shaochen Zhang, Haoran Geng, Chunrui Han, Zheng
Ge, He Wang, Li Yi, Kaisheng Ma
- Abstract要約: 本稿では,3次元マルチモーダル大言語モデル(LLM)を具体化して構築したShapeLLMについて述べる。
ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダの上に構築されている。
ShapeLLMは、構築した命令追従データに基づいて訓練され、新しい評価ベンチマークである3D MM-Vetでテストされた。
- 参考スコア(独自算出の注目度): 42.27389739545129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ShapeLLM, the first 3D Multimodal Large Language Model
(LLM) designed for embodied interaction, exploring a universal 3D object
understanding with 3D point clouds and languages. ShapeLLM is built upon an
improved 3D encoder by extending ReCon to ReCon++ that benefits from multi-view
image distillation for enhanced geometry understanding. By utilizing ReCon++ as
the 3D point cloud input encoder for LLMs, ShapeLLM is trained on constructed
instruction-following data and tested on our newly human-curated evaluation
benchmark, 3D MM-Vet. ReCon++ and ShapeLLM achieve state-of-the-art performance
in 3D geometry understanding and language-unified 3D interaction tasks, such as
embodied visual grounding.
- Abstract(参考訳): 本稿では,3次元点群と言語を用いた汎用的な3次元オブジェクト理解を探求する,最初の3次元マルチモーダル大言語モデルであるShapeLLMを提案する。
ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダ上に構築されている。
LLMの3Dポイントクラウド入力エンコーダとしてReCon++を活用することで、ShapeLLMは命令追従データの構築を訓練し、3D MM-Vetという新たな評価ベンチマークでテストする。
ReCon++とShapeLLMは、3Dの幾何学的理解と、具体化された視覚的接地のような言語統一された3Dインタラクションタスクにおいて最先端のパフォーマンスを達成する。
関連論文リスト
- MixCon3D: Synergizing Multi-View and Cross-Modal Contrastive Learning
for Enhancing 3D Representation [55.393631071201085]
コントラスト学習を強化するために,2次元画像と3次元点雲の相補的な情報を組み合わせたMixCon3Dを導入する。
また、3Dコントラッシブラーニングパラダイムのための様々なトレーニングレシピの徹底的な研究の先駆者となった。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - A Unified Framework for 3D Point Cloud Visual Grounding [60.75319271082741]
本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。
その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。
この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
論文 参考訳(メタデータ) (2023-08-23T03:20:31Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。