論文の概要: Point Cloud as a Foreign Language for Multi-modal Large Language Model
- arxiv url: http://arxiv.org/abs/2603.09173v1
- Date: Tue, 10 Mar 2026 04:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.028802
- Title: Point Cloud as a Foreign Language for Multi-modal Large Language Model
- Title(参考訳): 多モード大言語モデルのための外国語としてのポイントクラウド
- Authors: Sneha Paul, Zachary Patterson, Nizar Bouguila,
- Abstract要約: SAGEは、トレーニング済みの3Dエンコーダに頼ることなく、生の点雲を直接処理する最初のエンドツーエンドの3D MLLMである。
提案手法では, 幾何サンプリングと近傍凝集とベクトル量子化を組み合わせた軽量な3次元トークン化器を導入し, 点雲を離散トークンに変換する。
- 参考スコア(独自算出の注目度): 22.63554774942836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal large language models (MLLMs) have shown remarkable progress in integrating visual and linguistic understanding. Recent efforts have extended these capabilities to 3D understanding through encoder-based architectures that rely on pre-trained 3D encoders to extract geometric features. However, such approaches suffer from semantic misalignment between geometric and linguistic spaces, resolution sensitivity, and substantial computational overhead. In this work, we present SAGE, the first end-to-end 3D MLLM that directly processes raw point clouds without relying on a pre-trained 3D encoder. Our approach introduces a lightweight 3D tokenizer that combines geometric sampling and neighbourhood aggregation with vector quantization to convert point clouds into discrete tokens--treating 3D data as a foreign language that naturally extends the LLM's vocabulary. Furthermore, to enhance the model's reasoning capability on complex 3D tasks, we propose a preference optimization training strategy with a semantic alignment-based reward, specifically designed for open-ended 3D question answering where responses are descriptive. Extensive experiments across diverse 3D understanding benchmarks demonstrate that our end-to-end approach outperforms existing encoder-based methods while offering significant advantages in computational efficiency, generalization across LLM backbones, and robustness to input resolution variations. Code is available at: github.com/snehaputul/SAGE3D.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、視覚的および言語的理解の統合において顕著な進歩を示している。
近年の取り組みは、幾何学的特徴を抽出するために、事前訓練された3Dエンコーダに依存するエンコーダベースのアーキテクチャを通して、これらの能力を3D理解にまで拡張してきた。
しかし、このようなアプローチは幾何学空間と言語空間のセマンティックなミスアライメント、分解能感度、計算オーバーヘッドに悩まされている。
本稿では,SAGEについて述べる。SAGEは,訓練済みの3Dエンコーダを使わずに,生の点雲を直接処理する最初のエンドツーエンド3DMLLMである。
提案手法では,幾何学的サンプリングと近傍凝集とベクトル量子化を併用して,点雲を離散トークンに変換する軽量な3Dトークン化手法を提案する。
さらに,複雑な3次元タスクにおけるモデルの推論能力を高めるために,応答が記述可能なオープンな3次元質問応答に特化して,セマンティックアライメントに基づく報酬を用いた選好最適化トレーニング戦略を提案する。
多様な3次元理解ベンチマークによる広範囲な実験により、我々のエンドツーエンドアプローチは、計算効率、LLMバックボーン間の一般化、入力解像度の変動に対する堅牢性などにおいて、既存のエンコーダベースの手法よりも優れていることが示された。
コードは、github.com/snehaputul/SAGE3Dで入手できる。
関連論文リスト
- PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。