論文の概要: LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding
- arxiv url: http://arxiv.org/abs/2502.20389v1
- Date: Thu, 27 Feb 2025 18:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:09.506963
- Title: LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding
- Title(参考訳): LIFT-GS:3D言語接地のためのクロスシーンレンダースーパービジョン蒸留
- Authors: Ang Cao, Sergio Arnaud, Oleksandr Maksymets, Jianing Yang, Ayush Jain, Sriram Yenamandra, Ada Martin, Vincent-Pierre Berges, Paul McVay, Ruslan Partsey, Aravind Rajeswaran, Franziska Meier, Justin Johnson, Jeong Joon Park, Alexander Sax,
- Abstract要約: 我々は3Dで予測を行うフィードフォワードモデルを訓練するが、3Dラベルは必要とせず、2Dでのみ教師される。
トレーニングには、画像とカメラのポーズと2Dラベルが必要だ。
事前学習した2Dモデルから擬似ラベルを使用することで,2Dラベルの必要性を解消できることを示す。
- 参考スコア(独自算出の注目度): 64.28181017898369
- License:
- Abstract: Our approach to training 3D vision-language understanding models is to train a feedforward model that makes predictions in 3D, but never requires 3D labels and is supervised only in 2D, using 2D losses and differentiable rendering. The approach is new for vision-language understanding. By treating the reconstruction as a ``latent variable'', we can render the outputs without placing unnecessary constraints on the network architecture (e.g. can be used with decoder-only models). For training, only need images and camera pose, and 2D labels. We show that we can even remove the need for 2D labels by using pseudo-labels from pretrained 2D models. We demonstrate this to pretrain a network, and we finetune it for 3D vision-language understanding tasks. We show this approach outperforms baselines/sota for 3D vision-language grounding, and also outperforms other 3D pretraining techniques. Project page: https://liftgs.github.io.
- Abstract(参考訳): 3次元視覚言語理解モデルのトレーニングへのアプローチは,3次元ラベルを必要とせず,2次元の損失と異なるレンダリングを用いて2次元でのみ管理されるフィードフォワードモデルをトレーニングすることである。
アプローチは視覚言語理解にとって新しいものだ。
再構成を ``latent variable'' として扱うことで、ネットワークアーキテクチャに不要な制約を課すことなく出力をレンダリングできます(例えば、デコーダのみのモデルで使用できます)。
トレーニングには、画像とカメラのポーズと2Dラベルが必要だ。
事前学習した2Dモデルから擬似ラベルを使用することで,2Dラベルの必要性を解消できることを示す。
ネットワークを事前訓練するためにこれを実証し、それを3次元視覚言語理解タスクのために微調整する。
本手法は,3次元視覚言語接地におけるベースライン/ソタよりも優れており,他の3次元事前学習技術よりも優れていることを示す。
プロジェクトページ: https://liftgs.github.io.com
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
問題を再定義し、3次元のボリュームを分割し、以下の方法を提案する。
従来の2Dピクセルの監督を代行する手法とは異なり、言語埋め込みフィールドをトレーニングするための3Dポイントを直接監督する。
学習した言語フィールドを3DGSに転送し、トレーニング時間や精度を犠牲にすることなく、最初のリアルタイムレンダリング速度を達成する。
論文 参考訳(メタデータ) (2024-08-14T09:50:02Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Cycle-Consistent Generative Rendering for 2D-3D Modality Translation [21.962725416347855]
我々は、3Dオブジェクトのリアルなレンダリングを生成し、画像からリアルな3D形状を推測するモジュールを学習する。
生成ドメイン翻訳の手法を利用することで、弱い監視しか必要としない学習アルゴリズムを不適切なデータで定義することができる。
得られたモデルは、2D画像から3D形状、ポーズ、テクスチャ推論を行うことができるが、新しいテクスチャ化された3D形状やレンダリングを生成することもできる。
論文 参考訳(メタデータ) (2020-11-16T15:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。