論文の概要: PointLLM: Empowering Large Language Models to Understand Point Clouds
- arxiv url: http://arxiv.org/abs/2308.16911v1
- Date: Thu, 31 Aug 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:24:24.474810
- Title: PointLLM: Empowering Large Language Models to Understand Point Clouds
- Title(参考訳): pointllm: 大きな言語モデルにポイントクラウドを理解する権限を与える
- Authors: Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua
Lin
- Abstract要約: PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを処理する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
- 参考スコア(独自算出の注目度): 67.1783384610417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The unprecedented advancements in Large Language Models (LLMs) have created a
profound impact on natural language processing but are yet to fully embrace the
realm of 3D understanding. This paper introduces PointLLM, a preliminary effort
to fill this gap, thereby enabling LLMs to understand point clouds and offering
a new avenue beyond 2D visual data. PointLLM processes colored object point
clouds with human instructions and generates contextually appropriate
responses, illustrating its grasp of point clouds and common sense.
Specifically, it leverages a point cloud encoder with a powerful LLM to
effectively fuse geometric, appearance, and linguistic information. We collect
a novel dataset comprising 660K simple and 70K complex point-text instruction
pairs to enable a two-stage training strategy: initially aligning latent spaces
and subsequently instruction-tuning the unified model. To rigorously evaluate
our model's perceptual abilities and its generalization capabilities, we
establish two benchmarks: Generative 3D Object Classification and 3D Object
Captioning, assessed through three different methods, including human
evaluation, GPT-4/ChatGPT evaluation, and traditional metrics. Experiment
results show that PointLLM demonstrates superior performance over existing 2D
baselines. Remarkably, in human-evaluated object captioning tasks, PointLLM
outperforms human annotators in over 50% of the samples. Codes, datasets, and
benchmarks are available at https://github.com/OpenRobotLab/PointLLM .
- Abstract(参考訳): 大規模言語モデル(LLM)における前例のない進歩は、自然言語処理に大きな影響を与えたが、3D理解の領域を完全には受け入れていない。
本稿では,このギャップを埋めるための予備的な取り組みであるpointllmについて紹介する。
pointllmは、色付きのオブジェクトポイント雲を人間の指示で処理し、コンテキスト的に適切な応答を生成し、ポイントクラウドと常識の把握を示す。
具体的には、ポイントクラウドエンコーダと強力なLCMを利用して、幾何学、外観、言語情報を効果的に融合する。
660Kの単純および70Kの複雑な点文命令ペアからなる新しいデータセットを収集し、2段階のトレーニング戦略を実現する。
モデルの知覚能力とその一般化能力を厳密に評価するために,生成的3dオブジェクト分類と3dオブジェクトキャプションの2つのベンチマークを,人間評価,gpt-4/chatgpt評価,従来型メトリクスの3つの手法で評価した。
実験の結果,PointLLMは既存の2次元ベースラインよりも優れた性能を示した。
驚くべきことに、人間の評価対象キャプションタスクでは、pointllmは50%以上のサンプルで人間の注釈を上回っている。
コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/PointLLM で公開されている。
関連論文リスト
- PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。
我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文 参考訳(メタデータ) (2024-11-09T02:38:29Z) - PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model [4.079327215055764]
3Dオブジェクト上で動作可能な領域を識別する作業であるアフォーマンス理解は、ロボットシステムが物理的な世界の中で関わり、操作できるようにする上で重要な役割を担っている。
視覚言語モデル(VLM)は高レベルの推論において優れているが、効果的な人間とロボットの相互作用に必要な微妙な物理的特性の把握には不十分である。
PAVLMは、事前訓練された言語モデルに埋め込まれた広範なマルチモーダル知識を利用して、ポイントクラウドの3Dアベイランス理解を強化する革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-15T12:53:42Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。
一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。
提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-14T17:53:21Z) - Point2Vec for Self-Supervised Representation Learning on Point Clouds [66.53955515020053]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。
我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文 参考訳(メタデータ) (2023-03-29T10:08:29Z) - Joint Representation Learning for Text and 3D Point Cloud [35.67281936143821]
言語誘導型3Dポイントクラウドモデルを構築するための新しいText4Pointフレームワークを提案する。
提案されたText4Pointは、事前トレーニングと微調整のパラダイムに従っている。
我々のモデルは、ポイントクラウドセマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて一貫した改善を示す。
論文 参考訳(メタデータ) (2023-01-18T15:02:07Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。