論文の概要: More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding
- arxiv url: http://arxiv.org/abs/2408.15966v1
- Date: Wed, 28 Aug 2024 17:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:09:00.899011
- Title: More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding
- Title(参考訳): 3次元データ効率のよいポイント・ランゲージ理解を目指して
- Authors: Yuan Tang, Xu Han, Xianzhi Li, Qiao Yu, Jinfeng Xu, Yixue Hao, Long Hu, Min Chen,
- Abstract要約: GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。
画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。
3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
- 参考スコア(独自算出の注目度): 22.753452376062565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling Large Language Models (LLMs) to comprehend the 3D physical world remains a significant challenge. Due to the lack of large-scale 3D-text pair datasets, the success of LLMs has yet to be replicated in 3D understanding. In this paper, we rethink this issue and propose a new task: 3D Data-Efficient Point-Language Understanding. The goal is to enable LLMs to achieve robust 3D object understanding with minimal 3D point cloud and text data pairs. To address this task, we introduce GreenPLM, which leverages more text data to compensate for the lack of 3D data. First, inspired by using CLIP to align images and text, we utilize a pre-trained point cloud-text encoder to map the 3D point cloud space to the text space. This mapping leaves us to seamlessly connect the text space with LLMs. Once the point-text-LLM connection is established, we further enhance text-LLM alignment by expanding the intermediate text space, thereby reducing the reliance on 3D point cloud data. Specifically, we generate 6M free-text descriptions of 3D objects, and design a three-stage training strategy to help LLMs better explore the intrinsic connections between different modalities. To achieve efficient modality alignment, we design a zero-parameter cross-attention module for token pooling. Extensive experimental results show that GreenPLM requires only 12% of the 3D training data used by existing state-of-the-art models to achieve superior 3D understanding. Remarkably, GreenPLM also achieves competitive performance using text-only data. The code and weights are available at: https://github.com/TangYuan96/GreenPLM.
- Abstract(参考訳): 3次元物理世界を理解するための大規模言語モデル(LLM)の導入は依然として大きな課題である。
大規模な3Dテキストペアデータセットが不足しているため、LLMの成功は3D理解においてまだ再現されていない。
本稿では,この問題を再考し,新しい課題を提案する。
LLMの目標は、最小限の3Dポイントクラウドとテキストデータペアで、堅牢な3Dオブジェクト理解を実現することだ。
この課題に対処するために,3Dデータの欠如を補うために,より多くのテキストデータを活用するGreenPLMを導入する。
まず、CLIPを使って画像とテキストをアライメントすることで、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。
このマッピングによって、テキスト空間とLLMをシームレスに接続することができます。
点-テキスト-LLM接続が確立されると、中間テキスト空間を拡張してテキスト-LLMアライメントを強化し、3Dポイントクラウドデータへの依存を減らす。
具体的には、3Dオブジェクトの6M自由テキスト記述を生成し、LLMが様々なモダリティ間の本質的な関係をよりよく探求するための3段階のトレーニング戦略を設計する。
効率的なモダリティアライメントを実現するため,トークンプールのための0パラメータクロスアテンションモジュールを設計する。
大規模な実験結果から,GreenPLMは既存の最先端モデルで使用されている3Dトレーニングデータの12%しか必要とせず,優れた3D理解が得られていることがわかった。
注目すべきは、GreenPLMはテキストのみのデータを使用して競合的なパフォーマンスを達成することだ。
コードとウェイトは、https://github.com/TangYuan96/GreenPLM.comで入手できる。
関連論文リスト
- LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文 参考訳(メタデータ) (2024-10-04T19:22:20Z) - Riemann-based Multi-scale Attention Reasoning Network for Text-3D Retrieval [14.775984198185556]
テキスト3D検索のための新しいMultiscale Attention Reasoning Network (RMARN)を提案する。
RMARNは、テキストポイントクラウドサンプル間の距離をよりよく表現するために、多様体パラメータを学習する。
テキスト3Dデータのペア化の難しさに対処するため,大規模テキスト3D検索データセットT3DR-HITを開発した。
論文 参考訳(メタデータ) (2024-08-25T03:21:48Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Joint Representation Learning for Text and 3D Point Cloud [35.67281936143821]
言語誘導型3Dポイントクラウドモデルを構築するための新しいText4Pointフレームワークを提案する。
提案されたText4Pointは、事前トレーニングと微調整のパラダイムに従っている。
我々のモデルは、ポイントクラウドセマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて一貫した改善を示す。
論文 参考訳(メタデータ) (2023-01-18T15:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。