論文の概要: PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models
- arxiv url: http://arxiv.org/abs/2503.10529v1
- Date: Thu, 13 Mar 2025 16:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:36.684043
- Title: PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models
- Title(参考訳): PiSA: 大規模モデルによる3D理解のための自己拡張型データエンジンとトレーニング戦略
- Authors: Zilu Guo, Hongbin Lin, Zhihao Yuan, Chaoda Zheng, Pengshuo Qiu, Dongzhi Jiang, Renrui Zhang, Chun-Mei Feng, Zhen Li,
- Abstract要約: PiSA-Engineは、3次元空間意味論に富んだ命令ポイント言語データセットを生成するためのフレームワークである。
PiSA-Benchは6つの重要な側面を網羅した総合的な3Dベンチマークである。
ゼロショット3Dオブジェクトキャプションと生成分類におけるPointLLM-PiSAの最先端性能を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 20.256394783857676
- License:
- Abstract: 3D Multimodal Large Language Models (MLLMs) have recently made substantial advancements. However, their potential remains untapped, primarily due to the limited quantity and suboptimal quality of 3D datasets. Current approaches attempt to transfer knowledge from 2D MLLMs to expand 3D instruction data, but still face modality and domain gaps. To this end, we introduce PiSA-Engine (Point-Self-Augmented-Engine), a new framework for generating instruction point-language datasets enriched with 3D spatial semantics. We observe that existing 3D MLLMs offer a comprehensive understanding of point clouds for annotation, while 2D MLLMs excel at cross-validation by providing complementary information. By integrating holistic 2D and 3D insights from off-the-shelf MLLMs, PiSA-Engine enables a continuous cycle of high-quality data generation. We select PointLLM as the baseline and adopt this co-evolution training framework to develop an enhanced 3D MLLM, termed PointLLM-PiSA. Additionally, we identify limitations in previous 3D benchmarks, which often feature coarse language captions and insufficient category diversity, resulting in inaccurate evaluations. To address this gap, we further introduce PiSA-Bench, a comprehensive 3D benchmark covering six key aspects with detailed and diverse labels. Experimental results demonstrate PointLLM-PiSA's state-of-the-art performance in zero-shot 3D object captioning and generative classification on our PiSA-Bench, achieving significant improvements of 46.45% (+8.33%) and 63.75% (+16.25%), respectively. We will release the code, datasets, and benchmark.
- Abstract(参考訳): 3D Multimodal Large Language Models (MLLM) は、最近大幅に進歩した。
しかし、そのポテンシャルは、主に3Dデータセットの限られた量と最適以下の品質のために、未解決のままである。
現在のアプローチでは、3次元の命令データを拡張するために2次元MLLMから知識を伝達しようとするが、それでもモダリティとドメインギャップに直面している。
この目的のために,3次元空間意味論に富んだ命令ポイント言語データセットを生成する新しいフレームワークであるPiSA-Engine(Point-Self-Augmented-Engine)を紹介した。
既存の3次元MLLMはアノテーションのための点雲を包括的に理解しているのに対し、2次元MLLMは相補的な情報を提供することで相互検証において優れていることを観察する。
市販のMLLMから総合的な2Dおよび3Dインサイトを統合することで、PiSA-Engineは高品質なデータ生成の継続的サイクルを可能にする。
我々は、PointLLMをベースラインとして選択し、この共進化学習フレームワークを採用し、PointLLM-PiSAと呼ばれる拡張3DMLLMを開発する。
さらに,従来の3Dベンチマークでは,粗い言語キャプションやカテゴリの多様性が不十分な場合が多く,不正確な評価がなされていた。
このギャップに対処するために、私たちはさらに、詳細なラベルと多様なラベルを持つ6つの重要な側面をカバーする包括的な3DベンチマークであるPiSA-Benchを紹介します。
実験の結果, ゼロショット3DオブジェクトキャプションにおけるPointLLM-PiSAの最先端性能とPiSA-Benchの生成的分類は46.45% (+8.33%) と63.75% (+16.25%) に向上した。
コード、データセット、ベンチマークをリリースします。
関連論文リスト
- 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。