論文の概要: SceneGPT: A Language Model for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2408.06926v1
- Date: Tue, 13 Aug 2024 14:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:16:52.988158
- Title: SceneGPT: A Language Model for 3D Scene Understanding
- Title(参考訳): SceneGPT:3次元シーン理解のための言語モデル
- Authors: Shivam Chandhok,
- Abstract要約: SceneGPTは,3次元の空間的推論をトレーニングや明示的な3次元の監督なしに行うことができるLLMベースのシーン理解システムである。
本フレームワークの主な構成要素は,1)シーン表現として機能し,シーン内のオブジェクトとその空間関係を符号化する3次元シーングラフ,2)3次元空間推論のための文脈学習に適応可能な事前学習LLMである。
- 参考スコア(独自算出の注目度): 0.9054540533394926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building models that can understand and reason about 3D scenes is difficult owing to the lack of data sources for 3D supervised training and large-scale training regimes. In this work we ask - How can the knowledge in a pre-trained language model be leveraged for 3D scene understanding without any 3D pre-training. The aim of this work is to establish whether pre-trained LLMs possess priors/knowledge required for reasoning in 3D space and how can we prompt them such that they can be used for general purpose spatial reasoning and object understanding in 3D. To this end, we present SceneGPT, an LLM based scene understanding system which can perform 3D spatial reasoning without training or explicit 3D supervision. The key components of our framework are - 1) a 3D scene graph, that serves as scene representation, encoding the objects in the scene and their spatial relationships 2) a pre-trained LLM that can be adapted with in context learning for 3D spatial reasoning. We evaluate our framework qualitatively on object and scene understanding tasks including object semantics, physical properties and affordances (object-level) and spatial understanding (scene-level).
- Abstract(参考訳): 3Dシーンの理解と推論が可能なモデルの構築は、3D教師付きトレーニングと大規模トレーニング体制のためのデータソースが不足しているため難しい。
トレーニング済みの言語モデルにおける知識は、3D事前トレーニングなしで3Dシーン理解にどのように活用できるのか?
本研究の目的は, 3次元空間における推論に必要となる事前知識と, 汎用空間推論や3次元物体理解にどのように活用できるかを明らかにすることである。
そこで本研究では,LLMを用いた3次元空間推論システムであるSceneGPTを提案する。
1)シーン表現として機能し、シーン内のオブジェクトとその空間的関係を符号化する3次元シーングラフである。
2)3次元空間推論のための文脈学習に適応可能な事前学習型LLM。
本フレームワークは,オブジェクトの意味,物理的特性,余裕(オブジェクトレベル),空間的理解(シーンレベル)など,オブジェクトとシーンの理解タスクを質的に評価する。
関連論文リスト
- SceneTeller: Language-to-3D Scene Generation [15.209079637302905]
本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。
私たちのターンキーパイプラインは最先端の3Dシーンを生成しますが、初心者でも簡単に使用できます。
論文 参考訳(メタデータ) (2024-07-30T10:45:28Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Language-Assisted 3D Feature Learning for Semantic Scene Understanding [26.414294993374543]
言語支援型3D特徴学習は、現代のオブジェクト検出とインスタンスセグメンテーションの手法と組み合わせることができる。
3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。
論文 参考訳(メタデータ) (2022-11-25T13:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。