Fugu-MT 論文翻訳(概要): ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

論文の概要: ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

arxiv url: http://arxiv.org/abs/2402.17766v3
Date: Fri, 12 Jul 2024 15:36:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 05:07:34.858174
Title: ShapeLLM: Universal 3D Object Understanding for Embodied Interaction
Title（参考訳）: ShapeLLM: 身体インタラクションのためのユニバーサル3Dオブジェクト理解
Authors: Zekun Qi, Runpei Dong, Shaochen Zhang, Haoran Geng, Chunrui Han, Zheng Ge, Li Yi, Kaisheng Ma,
Abstract要約: 本稿では,3次元マルチモーダル大言語モデル(LLM)を具体化して構築したShapeLLMについて述べる。 ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダの上に構築されている。 ShapeLLMは、構築された命令追従データに基づいてトレーニングされ、新しい人為的なベンチマークである3D MM-Vetでテストされる。
参考スコア（独自算出の注目度）: 37.0434133128805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents ShapeLLM, the first 3D Multimodal Large Language Model (LLM) designed for embodied interaction, exploring a universal 3D object understanding with 3D point clouds and languages. ShapeLLM is built upon an improved 3D encoder by extending ReCon to ReCon++ that benefits from multi-view image distillation for enhanced geometry understanding. By utilizing ReCon++ as the 3D point cloud input encoder for LLMs, ShapeLLM is trained on constructed instruction-following data and tested on our newly human-curated benchmark, 3D MM-Vet. ReCon++ and ShapeLLM achieve state-of-the-art performance in 3D geometry understanding and language-unified 3D interaction tasks, such as embodied visual grounding. Project page: https://qizekun.github.io/shapellm/
Abstract（参考訳）: 本稿では,3次元点群と言語を用いた汎用的な3次元オブジェクト理解を探求する,最初の3次元マルチモーダル大言語モデルであるShapeLLMを提案する。 ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダ上に構築されている。 LLMのための3Dポイントクラウド入力エンコーダとしてReCon++を活用することで、ShapeLLMは命令追従データの構築を訓練し、3D MM-Vetという新しいベンチマークでテストする。 ReCon++とShapeLLMは、3Dの幾何学的理解と、具体化された視覚的接地のような言語統一された3Dインタラクションタスクにおいて最先端のパフォーマンスを達成する。プロジェクトページ: https://qizekun.github.io/shapellm/

関連論文リスト

PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文参考訳（メタデータ） (2026-01-05T18:55:45Z)
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding [16.95099884066268]
ShapeLLM-Omniは、任意のシーケンスで3Dのアセットとテキストを理解し、生成できる3Dの大規模言語モデルである。 3D対応離散トークンに基づいて、3D-Alpacaという大規模連続トレーニングデータセットを革新的に構築する。我々の研究は、基本的な3D機能を備えたマルチモーダルモデルを効果的に拡張する試みであり、将来の3DネイティブAIの研究に寄与する。
論文参考訳（メタデータ） (2025-06-02T16:40:50Z)
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [23.66183317100899]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。ビデオ3次元幾何大言語モデル(VG LLM)を提案する。提案手法では,映像系列から3次元事前情報を抽出する3次元ビジュアルジオメトリエンコーダを用いる。
論文参考訳（メタデータ） (2025-05-30T14:16:41Z)
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルであるセンサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文参考訳（メタデータ） (2025-04-19T02:51:24Z)
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer [33.42183318484381]
3D-LLaVAは,3D世界の理解,推論,対話において,インテリジェントなアシスタントとして機能するように設計された,シンプルかつ強力な3D LMMである。 3D-LLaVAのコアには、3つの機能を統合する新しいOmni Superpoint Transformer (OST)がある。
論文参考訳（メタデータ） (2025-01-02T09:33:13Z)
Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文参考訳（メタデータ） (2024-05-06T17:57:27Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)
Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。相補的な視点から3次元オブジェクトレベルの表現を開発する。次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文参考訳（メタデータ） (2023-11-03T06:05:36Z)
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文参考訳（メタデータ） (2023-09-01T17:59:47Z)
A Unified Framework for 3D Point Cloud Visual Grounding [60.75319271082741]
本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
論文参考訳（メタデータ） (2023-08-23T03:20:31Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。学習した視覚表現の質を高める能力について実証的に示す。提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文参考訳（メタデータ） (2022-11-25T17:12:08Z)
TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。 TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文参考訳（メタデータ） (2022-09-19T05:54:26Z)
Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文参考訳（メタデータ） (2020-08-24T21:51:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。