論文の概要: Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis
- arxiv url: http://arxiv.org/abs/2104.00677v1
- Date: Thu, 1 Apr 2021 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 16:18:25.230336
- Title: Putting NeRF on a Diet: Semantically Consistent Few-Shot View Synthesis
- Title(参考訳): ダイエットにNeRFを施す: 連続的に一貫性のあるFew-Shotビューの合成
- Authors: Ajay Jain and Matthew Tancik and Pieter Abbeel
- Abstract要約: 数枚の画像から推定した3次元ニューラルシーン表現であるDietNeRFを提案する。
NeRFはマルチビュー一貫性によってシーンの連続的なボリューム表現を学習する。
我々は,新しいポーズにおけるリアルなレンダリングを促進する補助的なセマンティック一貫性損失を導入する。
- 参考スコア(独自算出の注目度): 86.38901313994734
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present DietNeRF, a 3D neural scene representation estimated from a few
images. Neural Radiance Fields (NeRF) learn a continuous volumetric
representation of a scene through multi-view consistency, and can be rendered
from novel viewpoints by ray casting. While NeRF has an impressive ability to
reconstruct geometry and fine details given many images, up to 100 for
challenging 360{\deg} scenes, it often finds a degenerate solution to its image
reconstruction objective when only a few input views are available. To improve
few-shot quality, we propose DietNeRF. We introduce an auxiliary semantic
consistency loss that encourages realistic renderings at novel poses. DietNeRF
is trained on individual scenes to (1) correctly render given input views from
the same pose, and (2) match high-level semantic attributes across different,
random poses. Our semantic loss allows us to supervise DietNeRF from arbitrary
poses. We extract these semantics using a pre-trained visual encoder such as
CLIP, a Vision Transformer trained on hundreds of millions of diverse
single-view, 2D photographs mined from the web with natural language
supervision. In experiments, DietNeRF improves the perceptual quality of
few-shot view synthesis when learned from scratch, can render novel views with
as few as one observed image when pre-trained on a multi-view dataset, and
produces plausible completions of completely unobserved regions.
- Abstract(参考訳): 数枚の画像から推定した3次元ニューラルシーン表現であるDietNeRFを提案する。
neural radiance fields (nerf) はマルチビュー一貫性を通じてシーンの連続的なボリューム表現を学習し、レイキャスティングによって新たな視点からレンダリングすることができる。
NeRFは、多くの画像が与えられた場合、幾何や細部を再構築する能力があり、360{\deg}のシーンに挑戦するためには最大100まであるが、わずかな入力ビューしか得られない場合、画像再構成の目的に対する退化的な解決策を見出すことが多い。
撮影品質を向上させるため,DietNeRFを提案する。
我々は,新しいポーズにおけるリアルなレンダリングを促進する補助的なセマンティック一貫性損失を導入する。
DietNeRFは、(1)同じポーズから与えられた入力ビューを正しくレンダリングし、(2)異なるランダムなポーズ間で高いレベルのセマンティック属性にマッチするように、個々のシーンでトレーニングされる。
意味喪失により任意のポーズからDietNeRFを監督することができます。
我々はこれらの意味をクリップなどの事前学習されたビジュアルエンコーダで抽出し,自然言語によるwebから抽出した何億もの多彩な2d写真から学習した視覚トランスフォーマである。
実験では、DietheNeRFは、スクラッチから学習した時に、わずかなショットビュー合成の知覚的品質を改善し、マルチビューデータセットで事前トレーニングされた際に、1つの観察画像で新しいビューをレンダリングすることができる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SPARF: Neural Radiance Fields from Sparse and Noisy Poses [58.528358231885846]
SPARF(Sparse Pose Adjusting Radiance Field)を導入し,新規な視点合成の課題に対処する。
提案手法は、NeRFを共同学習し、カメラのポーズを洗練するために、多視点幾何学的制約を利用する。
論文 参考訳(メタデータ) (2022-11-21T18:57:47Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Ray Priors through Reprojection: Improving Neural Radiance Fields for
Novel View Extrapolation [35.47411859184933]
本研究では,(1)トレーニング画像が対象をうまく表現できる,(2)トレーニング画像とテスト視点の分布との間には顕著な相違点がある,という新しい視点外挿設定について検討する。
ランダムな光線キャスティングポリシーを提案する。
観測された光線の視方向から予め計算された光アトラスは、外挿された視界のレンダリング品質をさらに高めることができる。
論文 参考訳(メタデータ) (2022-05-12T07:21:17Z) - Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual
Fly-Throughs [54.41204057689033]
我々は、ニューラルネットワーク(NeRF)を活用して、建物にまたがる大規模な視覚的キャプチャーや、主にドローンデータから収集された複数の都市ブロックからインタラクティブな3D環境を構築する方法について検討する。
NeRFが伝統的に評価されている単一のオブジェクトシーンとは対照的に、この設定には複数の課題がある。
我々は、訓練画像(またはむしろピクセル)を、並列で訓練できる異なるNeRFサブモジュールに分割する単純なクラスタリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-12-20T17:40:48Z) - Baking Neural Radiance Fields for Real-Time View Synthesis [41.07052395570522]
我々は、NeRFをトレーニングし、プリコンプリートし、保存する(すなわち)方法を提案する。
「ベイク」はスパースニューラルネットワーク放射格子(snerg)と呼ばれる新しい表現である。
結果として生じるシーン表現は、細かい幾何学的詳細とビュー依存の外観をレンダリングするNeRFの能力を保持し、コンパクトであり、リアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2021-03-26T17:59:52Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - D-NeRF: Neural Radiance Fields for Dynamic Scenes [72.75686949608624]
そこで我々は,D-NeRF(D-NeRF)を動的領域に拡張する手法を提案する。
D-NeRFは、周囲を動き回るカメラから、剛体で非剛体な動きの下で物体のイメージを再構成する。
我々は,剛体・調音・非剛体動作下での物体のシーンに対するアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-11-27T19:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。