論文の概要: MLLMs Need 3D-Aware Representation Supervision for Scene Understanding
- arxiv url: http://arxiv.org/abs/2506.01946v1
- Date: Mon, 02 Jun 2025 17:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.700365
- Title: MLLMs Need 3D-Aware Representation Supervision for Scene Understanding
- Title(参考訳): MLLMはシーン理解のために3D認識表現を必要とする
- Authors: Xiaohu Huang, Jingjing Wu, Qunyi Xie, Kai Han,
- Abstract要約: 3DRSは、事前訓練された3D基礎モデルから監督を導入することでMLLM 3D表現学習を強化するフレームワークである。
本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
- 参考スコア(独自算出の注目度): 14.083262551714133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in scene understanding have leveraged multimodal large language models (MLLMs) for 3D reasoning by capitalizing on their strong 2D pretraining. However, the lack of explicit 3D data during MLLM pretraining limits 3D representation capability. In this paper, we investigate the 3D-awareness of MLLMs by evaluating multi-view correspondence and reveal a strong positive correlation between the quality of 3D-aware representation and downstream task performance. Motivated by this, we propose 3DRS, a framework that enhances MLLM 3D representation learning by introducing supervision from pretrained 3D foundation models. Our approach aligns MLLM visual features with rich 3D knowledge distilled from 3D models, effectively improving scene understanding. Extensive experiments across multiple benchmarks and MLLMs -- including visual grounding, captioning, and question answering -- demonstrate consistent performance gains. Project page: https://visual-ai.github.io/3drs
- Abstract(参考訳): シーン理解の最近の進歩は, マルチモーダルな大規模言語モデル(MLLM)を, 強い2次元事前学習を活かして3次元推論に活用している。
しかし、MLLM事前訓練中の明示的な3Dデータの欠如は、3D表現能力を制限している。
本稿では,MLLMの3次元認識性を多視点対応性の評価により検討し,3次元認識表現の品質と下流タスク性能との間に強い正の相関関係を示す。
そこで本研究では,MLLM 3D表現学習を支援するフレームワークである3DRSを提案する。
本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
複数のベンチマークやMLLM(ビジュアルグラウンド、キャプション、質問応答など)にわたる大規模な実験は、一貫したパフォーマンス向上を示している。
プロジェクトページ: https://visual-ai.github.io/3drs
関連論文リスト
- Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [23.66183317100899]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。
ビデオ3次元幾何大言語モデル(VG LLM)を提案する。
提案手法では,映像系列から3次元事前情報を抽出する3次元ビジュアルジオメトリエンコーダを用いる。
論文 参考訳(メタデータ) (2025-05-30T14:16:41Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。