論文の概要: Mutli-View 3D Reconstruction using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.02039v1
- Date: Mon, 02 Dec 2024 23:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:11.603046
- Title: Mutli-View 3D Reconstruction using Knowledge Distillation
- Title(参考訳): 知識蒸留によるMutli-View 3D再構成
- Authors: Aditya Dutt, Ishikaa Lunawat, Manpreet Kaur,
- Abstract要約: 我々は,Dust3rを教師とする学生教師モデルを構築し,Dust3rが出力する3次元再構成点を用いて学習した学生モデルの複数のアーキテクチャを探索する。
我々のゴールは、シーン固有の表現を学習し、3DポイントをDust3rのような複製可能なパフォーマンスで出力できる学生モデルを作ることです。
- 参考スコア(独自算出の注目度): 0.6827423171182154
- License:
- Abstract: Large Foundation Models like Dust3r can produce high quality outputs such as pointmaps, camera intrinsics, and depth estimation, given stereo-image pairs as input. However, the application of these outputs on tasks like Visual Localization requires a large amount of inference time and compute resources. To address these limitations, in this paper, we propose the use of a knowledge distillation pipeline, where we aim to build a student-teacher model with Dust3r as the teacher and explore multiple architectures of student models that are trained using the 3D reconstructed points output by Dust3r. Our goal is to build student models that can learn scene-specific representations and output 3D points with replicable performance such as Dust3r. The data set we used to train our models is 12Scenes. We test two main architectures of models: a CNN-based architecture and a Vision Transformer based architecture. For each architecture, we also compare the use of pre-trained models against models built from scratch. We qualitatively compare the reconstructed 3D points output by the student model against Dust3r's and discuss the various features learned by the student model. We also perform ablation studies on the models through hyperparameter tuning. Overall, we observe that the Vision Transformer presents the best performance visually and quantitatively.
- Abstract(参考訳): Dust3rのような大規模ファンデーションモデルは、ポイントマップ、カメラ内在、深さ推定などの高品質な出力を生成し、入力としてステレオイメージペアを指定できる。
しかし、これらの出力をビジュアルローカライゼーションのようなタスクに適用するには、大量の推論時間と計算リソースが必要である。
そこで本研究では,Dust3rを教師とする学生教師モデルの構築と,Dust3rが出力する3次元再構成点を用いて学習した学生モデルの複数アーキテクチャの探索を目的として,知識蒸留パイプラインの利用を提案する。
我々のゴールは、シーン固有の表現を学習し、3DポイントをDust3rのような複製可能なパフォーマンスで出力できる学生モデルを作ることです。
私たちがモデルをトレーニングするのに使ったデータセットは12Scenesです。
我々は、CNNベースのアーキテクチャとVision Transformerベースのアーキテクチャの2つの主要なモデルアーキテクチャをテストする。
各アーキテクチャについて、トレーニング済みのモデルとスクラッチから構築されたモデルの比較も行います。
学生モデルが出力する再構成された3DポイントをDust3rと質的に比較し、学生モデルが学習した様々な特徴について考察する。
また、ハイパーパラメータチューニングによりモデルに対するアブレーション研究を行う。
全体として,視覚変換器は視覚的,定量的に最高の性能を示す。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - Translational Symmetry-Aware Facade Parsing for 3D Building
Reconstruction [11.263458202880038]
本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。
本研究では,単一段ネットワークにおけるアンカーフリー検出を融合させる新しい手法を提案する。
我々はBlenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。
論文 参考訳(メタデータ) (2021-06-02T03:10:51Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。