論文の概要: Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
- arxiv url: http://arxiv.org/abs/2506.05318v2
- Date: Fri, 06 Jun 2025 07:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.095383
- Title: Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
- Title(参考訳): 3Dエンコーダは本当に動くのか? 2D VLMのSFTが3D VLMと出会う
- Authors: Haoyuan Li, Yanpeng Zhou, Yufei Gao, Tao Tang, Jianhua Han, Yujie Yuan, Dave Zhenyu Chen, Jiawang Bian, Hang Xu, Xiaodan Liang,
- Abstract要約: 本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
- 参考スコア(独自算出の注目度): 72.11701578308804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Remarkable progress in 2D Vision-Language Models (VLMs) has spurred interest in extending them to 3D settings for tasks like 3D Question Answering, Dense Captioning, and Visual Grounding. Unlike 2D VLMs that typically process images through an image encoder, 3D scenes, with their intricate spatial structures, allow for diverse model architectures. Based on their encoder design, this paper categorizes recent 3D VLMs into 3D object-centric, 2D image-based, and 3D scene-centric approaches. Despite the architectural similarity of 3D scene-centric VLMs to their 2D counterparts, they have exhibited comparatively lower performance compared with the latest 3D object-centric and 2D image-based approaches. To understand this gap, we conduct an in-depth analysis, revealing that 3D scene-centric VLMs show limited reliance on the 3D scene encoder, and the pre-train stage appears less effective than in 2D VLMs. Furthermore, we observe that data scaling benefits are less pronounced on larger datasets. Our investigation suggests that while these models possess cross-modal alignment capabilities, they tend to over-rely on linguistic cues and overfit to frequent answer distributions, thereby diminishing the effective utilization of the 3D encoder. To address these limitations and encourage genuine 3D scene understanding, we introduce a novel 3D Relevance Discrimination QA dataset designed to disrupt shortcut learning and improve 3D understanding. Our findings highlight the need for advanced evaluation and improved strategies for better 3D understanding in 3D VLMs.
- Abstract(参考訳): 2D Vision-Language Models (VLM) の注目すべき進歩は、3D Question Answering、Dense Captioning、Visual Groundingといったタスクのために、それらを3D設定に拡張することへの関心を喚起している。
通常イメージエンコーダを通して画像を処理する2D VLMとは異なり、3Dシーンは複雑な空間構造を持つため、多様なモデルアーキテクチャが可能である。
エンコーダの設計に基づいて,最近の3次元VLMを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
このギャップを理解するために,3次元シーン中心のVLMは3次元シーンエンコーダに限定的に依存しており,プリトレインステージは2次元VLMよりも効果が低いことを示す。
さらに,大規模データセットでは,データスケーリングのメリットが顕著でないことも確認した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に依存し,頻繁な解答に過度に適合する傾向にあり,これにより3Dエンコーダの有効利用が低下することが示唆された。
これらの制約に対処し、真の3Dシーン理解を促進するために、ショートカット学習を妨害し、3D理解を改善するために設計された新しい3D関連識別QAデータセットを導入する。
以上の結果から,3次元VLMにおける3次元理解向上のための高度な評価と改善戦略の必要性が示唆された。
関連論文リスト
- Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning [18.185457833299235]
本稿では,複数の3次元シーン理解タスクを同時に扱うために,インスタンス対応3次元大規模マルチモーダルモデル(Inst3D-LMM)を提案する。
まず,MCMF(Multi-view Cross-Modal Fusion)モジュールを導入し,それに対応する幾何学的特徴に多視点2Dセマンティクスを注入する。
シーンレベルの関係対応トークンに対しては、オブジェクト間の複雑な対空間関係をキャプチャするための3次元インスタンス空間関係(3D-ISR)モジュールをさらに提示する。
論文 参考訳(メタデータ) (2025-03-01T14:38:42Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness [22.408933972095763]
我々はLLaVA-3Dと呼ばれるシンプルだが効果的なフレームワークを紹介した。
2D理解能力を損なうことなく、3Dシーン理解にLLaVAを効率的に適用する。
LLaVA-3Dは、3Dビジョン言語データセットでトレーニングされた場合、既存の3D LMMよりも3.5倍高速に収束する。
論文 参考訳(メタデータ) (2024-09-26T17:59:11Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。