論文の概要: FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models
- arxiv url: http://arxiv.org/abs/2303.12786v1
- Date: Wed, 22 Mar 2023 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:09:52.492009
- Title: FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models
- Title(参考訳): FeatureNeRF: 基礎モデルの蒸留による一般化可能なNeRFの学習
- Authors: Jianglong Ye, Naiyan Wang, Xiaolong Wang
- Abstract要約: 一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
- 参考スコア(独自算出の注目度): 21.523836478458524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on generalizable NeRFs have shown promising results on novel
view synthesis from single or few images. However, such models have rarely been
applied on other downstream tasks beyond synthesis such as semantic
understanding and parsing. In this paper, we propose a novel framework named
FeatureNeRF to learn generalizable NeRFs by distilling pre-trained vision
foundation models (e.g., DINO, Latent Diffusion). FeatureNeRF leverages 2D
pre-trained foundation models to 3D space via neural rendering, and then
extract deep features for 3D query points from NeRF MLPs. Consequently, it
allows to map 2D images to continuous 3D semantic feature volumes, which can be
used for various downstream tasks. We evaluate FeatureNeRF on tasks of 2D/3D
semantic keypoint transfer and 2D/3D object part segmentation. Our extensive
experiments demonstrate the effectiveness of FeatureNeRF as a generalizable 3D
semantic feature extractor. Our project page is available at
https://jianglongye.com/featurenerf/ .
- Abstract(参考訳): 一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
しかしながら、このようなモデルは意味理解や解析といった合成以外の下流タスクに適用されることはほとんどない。
本稿では、事前学習された視覚基盤モデル(例えば、DINO, Latent Diffusion)を蒸留することにより、一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
FeatureNeRFは、ニューラルネットワークによる2Dトレーニング済みの基礎モデルを3D空間に活用し、NeRF MLPから3Dクエリポイントの深い特徴を抽出する。
これにより、2Dイメージを連続した3Dセマンティックな特徴ボリュームにマッピングすることができる。
2D/3Dセマンティックキーポイント転送と2D/3Dオブジェクト部分分割のタスクにおけるFeatureNeRFの評価を行った。
一般化可能な3次元意味特徴抽出器としてのFeatureNeRFの有効性を実証した。
プロジェクトのページはhttps://jianglongye.com/featurenerf/で閲覧できます。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields [29.573344213110172]
Omni-Reconと呼ばれるフレームワークは、(1)一般化可能な3D再構成とゼロショットマルチタスクシーン理解、(2)リアルタイムレンダリングやシーン編集といった様々な下流3Dアプリケーションへの適応性を実現する。
具体的には、Omni-Reconは2つの分離枝を持つ画像ベースレンダリングを用いた汎用NeRFモデルを備えている。
この設計は、ゼロショットマルチタスクシーン理解のために、様々なタスクで再利用可能なブレンディングウェイトを用いて、最先端(SOTA)の一般化可能な3次元表面再構成品質を実現する。
論文 参考訳(メタデータ) (2024-03-17T07:47:26Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Registering Neural Radiance Fields as 3D Density Images [55.64859832225061]
我々は,様々な場面でトレーニングやテストが可能な,普遍的な事前学習型ニューラルネットワークを提案する。
我々は,グローバルアプローチとして,NeRFモデルを効果的に登録できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T09:08:46Z) - MultiPlaneNeRF: Neural Radiance Field with Non-Trainable Representation [11.049528513775968]
NeRFは2D画像から3Dオブジェクトを効率的に表現する人気モデルである。
上記の問題を同時に解くモデルとして,MultiPlaneNeRFを提案する。
論文 参考訳(メタデータ) (2023-05-17T21:27:27Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - SegNeRF: 3D Part Segmentation with Neural Radiance Fields [63.12841224024818]
SegNeRFは、通常の放射場とセマンティックフィールドを統合するニューラルネットワーク表現である。
SegNeRFは、未確認のオブジェクトであっても、ポーズされた画像から幾何学、外観、意味情報を同時に予測することができる。
SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションによって、明示的な3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2022-11-21T07:16:03Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。