論文の概要: From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs
- arxiv url: http://arxiv.org/abs/2502.20389v2
- Date: Mon, 09 Jun 2025 14:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.906778
- Title: From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs
- Title(参考訳): 数千から数十億年:2D VLMによるRender-Supervised Distillationによる3Dビジュアル言語接地
- Authors: Ang Cao, Sergio Arnaud, Oleksandr Maksymets, Jianing Yang, Ayush Jain, Sriram Yenamandra, Ada Martin, Vincent-Pierre Berges, Paul McVay, Ruslan Partsey, Aravind Rajeswaran, Franziska Meier, Justin Johnson, Jeong Joon Park, Alexander Sax,
- Abstract要約: LIFT-GSはポイントクラウドから3Dガウス表現を予測し、予測された言語条件の3Dマスクを2Dビューにレンダリングする。
LIFT-GSは、オープン語彙のインスタンスセグメンテーションで25.7%のmAPで最先端の結果を達成する。
注目すべきは、事前トレーニングがデータセットの微調整を2倍にし、強力なスケーリング特性を示すことだ。
- 参考スコア(独自算出の注目度): 64.28181017898369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D vision-language grounding faces a fundamental data bottleneck: while 2D models train on billions of images, 3D models have access to only thousands of labeled scenes--a six-order-of-magnitude gap that severely limits performance. We introduce $\textbf{LIFT-GS}$, a practical distillation technique that overcomes this limitation by using differentiable rendering to bridge 3D and 2D supervision. LIFT-GS predicts 3D Gaussian representations from point clouds and uses them to render predicted language-conditioned 3D masks into 2D views, enabling supervision from 2D foundation models (SAM, CLIP, LLaMA) without requiring any 3D annotations. This render-supervised formulation enables end-to-end training of complete encoder-decoder architectures and is inherently model-agnostic. LIFT-GS achieves state-of-the-art results with $25.7\%$ mAP on open-vocabulary instance segmentation (vs. $20.2\%$ prior SOTA) and consistent $10-30\%$ improvements on referential grounding tasks. Remarkably, pretraining effectively multiplies fine-tuning datasets by 2X, demonstrating strong scaling properties that suggest 3D VLG currently operates in a severely data-scarce regime. Project page: https://liftgs.github.io
- Abstract(参考訳): 2Dモデルは何十億もの画像をトレーニングするが、3Dモデルはわずか数千のラベル付きシーンにアクセスできる ― パフォーマンスを著しく制限する6桁のマグニチュードギャップだ。
我々は,3Dと2Dを橋渡しする微分レンダリングを用いて,この制限を克服する実用的な蒸留技術である$\textbf{LIFT-GS}$を紹介した。
LIFT-GSは、ポイントクラウドからの3Dガウス表現を予測し、予測された言語条件の3Dマスクを2Dビューにレンダリングするためにそれを使用し、3Dアノテーションを必要とせずに、2Dファンデーションモデル(SAM、CLIP、LLaMA)からの監視を可能にする。
このレンダリング管理された定式化により、完全なエンコーダ・デコーダアーキテクチャのエンドツーエンドのトレーニングが可能になり、本質的にモデルに依存しない。
LIFT-GSは、オープン語彙のインスタンスセグメンテーション(vs)で25.7 %$ mAPで最先端の結果を達成する。
20.2\%$以前のSOTA) と一貫した10-30\%$ 参照グラウンドタスクの改善。
注目すべきは、3D VLGは現在、厳しいデータスカース体制で運用されていることを示唆する強力なスケーリング特性を示していることだ。
プロジェクトページ: https://liftgs.github.io
関連論文リスト
- Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Cycle-Consistent Generative Rendering for 2D-3D Modality Translation [21.962725416347855]
我々は、3Dオブジェクトのリアルなレンダリングを生成し、画像からリアルな3D形状を推測するモジュールを学習する。
生成ドメイン翻訳の手法を利用することで、弱い監視しか必要としない学習アルゴリズムを不適切なデータで定義することができる。
得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うことができるが、新しいテクスチャ化された3D形状やレンダリングを生成することもできる。
論文 参考訳(メタデータ) (2020-11-16T15:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。