論文の概要: Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation
- arxiv url: http://arxiv.org/abs/2602.06032v1
- Date: Thu, 05 Feb 2026 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.150973
- Title: Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation
- Title(参考訳): Splat and Distill: 3D-Aware Distillationのためのフィードフォワード3D再構成による教師の増員
- Authors: David Shavin, Sagie Benaim,
- Abstract要約: Vision Foundation Models (VFM) は、様々な下流2Dタスクに適用することで大きな成功を収めた。
その効果にもかかわらず、それらはしばしば3D認識の重大な欠如を示す。
Splat と Distill は,高速なフィードフォワード3次元再構成パイプラインで教師モデルを強化することで,堅牢な3次元認識を2次元 VFM に組み込むフレームワークである。
- 参考スコア(独自算出の注目度): 10.159228582199924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Foundation Models (VFMs) have achieved remarkable success when applied to various downstream 2D tasks. Despite their effectiveness, they often exhibit a critical lack of 3D awareness. To this end, we introduce Splat and Distill, a framework that instills robust 3D awareness into 2D VFMs by augmenting the teacher model with a fast, feed-forward 3D reconstruction pipeline. Given 2D features produced by a teacher model, our method first lifts these features into an explicit 3D Gaussian representation, in a feedforward manner. These 3D features are then ``splatted" onto novel viewpoints, producing a set of novel 2D feature maps used to supervise the student model, ``distilling" geometrically grounded knowledge. By replacing slow per-scene optimization of prior work with our feed-forward lifting approach, our framework avoids feature-averaging artifacts, creating a dynamic learning process where the teacher's consistency improves alongside that of the student. We conduct a comprehensive evaluation on a suite of downstream tasks, including monocular depth estimation, surface normal estimation, multi-view correspondence, and semantic segmentation. Our method significantly outperforms prior works, not only achieving substantial gains in 3D awareness but also enhancing the underlying semantic richness of 2D features. Project page is available at https://davidshavin4.github.io/Splat-and-Distill/
- Abstract(参考訳): Vision Foundation Models (VFM) は、様々な下流2Dタスクに適用することで大きな成功を収めた。
その効果にもかかわらず、それらはしばしば3D認識の重大な欠如を示す。
そこで本稿では,教師モデルに高速なフィードフォワード3D再構築パイプラインを組み込むことにより,堅牢な3次元認識を2次元VFMに組み込むフレームワークであるSplat and Distillを紹介する。
教師モデルによって生成された2次元特徴を前提として,まずこれらの特徴を3次元ガウス表現にフィードフォワード的に持ち上げる。
これらの3D特徴は、新しい視点に“splatted”され、幾何学的に基礎付けられた知識を‘distilling’することによって、学生モデルを監視するために使用される新しい2D特徴マップのセットを生成する。
フィードフォワードリフトアプローチで事前作業のスローシーンごとの最適化を置き換えることにより、我々のフレームワークは機能改善のアーティファクトを回避し、教師の一貫性が生徒のものと同等に向上する動的な学習プロセスを作成する。
単眼深度推定,表面正規度推定,マルチビュー対応,セマンティックセグメンテーションなど,下流タスクの総合的な評価を行う。
提案手法は,3次元認識における実質的な向上だけでなく,2次元特徴の基盤となる意味的豊かさも向上させるとともに,先行研究よりも優れていた。
プロジェクトページはhttps://davidshavin4.github.io/Splat-and-Distill/で公開されている。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation [67.36775428466045]
2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-07-18T10:13:56Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。