Fugu-MT 論文翻訳(概要): SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models

論文の概要: SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models

arxiv url: http://arxiv.org/abs/2410.03878v1
Date: Fri, 4 Oct 2024 19:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 15:40:54.429832
Title: SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models
Title（参考訳）: SPARTUN3D:大規模言語モデルにおける3次元世界の空間的理解
Authors: Yue Zhang, Zhiyang Xu, Ying Shen, Parisa Kordjamshidi, Lifu Huang,
Abstract要約: Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
参考スコア（独自算出の注目度）: 45.28780381341979
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating the 3D world into large language models (3D-based LLMs) has been a promising research direction for 3D scene understanding. However, current 3D-based LLMs fall short in situated understanding due to two key limitations: 1) existing 3D datasets are constructed from a global perspective of the 3D scenes and lack situated context. 2) the architectures of existing 3D-based LLMs lack explicit alignment between the spatial representations of 3D scenes and natural language, limiting their performance in tasks requiring precise spatial reasoning. We address these issues by introducing a scalable situated 3D dataset, named Spartun3D, that incorporates various situated spatial reasoning tasks. Furthermore, we propose Spartun3D-LLM, built on an existing 3D-based LLM but integrated with a novel situated spatial alignment module, aiming to enhance the alignment between 3D visual representations and their corresponding textual descriptions. Experimental results demonstrate that both our proposed dataset and alignment module significantly enhance the situated spatial understanding of 3D-based LLMs.
Abstract（参考訳）: 3次元世界を大規模言語モデル(3次元LLM)に統合することは、3次元シーン理解のための有望な研究方向である。しかし、現在の3DベースのLLMは、2つの重要な制限があるため、位置理解に不足している。 1) 既存の3Dデータセットは3Dシーンのグローバルな視点から構築され, 位置するコンテキストが欠如している。 2) 既存の3次元LLMのアーキテクチャは3次元シーンの空間表現と自然言語との明確な整合性を欠いており, 正確な空間推論を必要とするタスクにおける性能を制限している。 Spartun3Dと呼ばれる、様々な位置空間推論タスクを組み込んだスケーラブルな3Dデータセットを導入することで、これらの問題に対処する。さらに,既存の3次元空間アライメントモジュールをベースとしたSpartun3D-LLMを提案する。実験の結果,提案したデータセットとアライメントモジュールは,3次元LLMの位置空間的理解を著しく向上させることがわかった。

関連論文リスト

Spatial 3D-LLM: Exploring Spatial Awareness in 3D Vision-Language Models [12.545622346725544]
新しい時代は、大規模言語モデル(LLM)を拡張して3Dビジョン言語タスクに取り組むという、エキサイティングな可能性を解き放ちました。本研究では,3次元視覚言語タスクの空間認識を高めるために設計された3次元MLLMであるSpatial 3D-LLMを提案する。本稿では,3次元物体距離計測と3次元レイアウト編集の2つの新しいタスクを紹介し,モデルの空間認識能力を評価するために3次元命令データセットであるMODELを構築した。
論文参考訳（メタデータ） (2025-07-22T12:32:35Z)
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文参考訳（メタデータ） (2025-03-23T16:40:20Z)
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-30T14:28:53Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)
3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文参考訳（メタデータ） (2024-01-06T12:20:18Z)
LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文参考訳（メタデータ） (2023-12-21T17:52:12Z)
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文参考訳（メタデータ） (2023-08-17T03:52:15Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。