論文の概要: Generalizable Neural Radiance Fields for Novel View Synthesis with
Transformer
- arxiv url: http://arxiv.org/abs/2206.05375v1
- Date: Fri, 10 Jun 2022 23:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:33:27.026298
- Title: Generalizable Neural Radiance Fields for Novel View Synthesis with
Transformer
- Title(参考訳): 変圧器を用いた新しいビュー合成のための一般化可能なニューラルラジアンス場
- Authors: Dan Wang, Xinrui Cui, Septimiu Salcudean, and Z. Jane Wang
- Abstract要約: 本研究では,Transformer-based NeRF (TransNeRF) を用いて,観測画像に基づく汎用的ニューラルラディアンス場を学習する。
さまざまなシーンでトレーニングされたTransNeRFは、最先端の画像ベースのニューラルネットワークレンダリング手法と比較して、パフォーマンスが向上することを示した。
- 参考スコア(独自算出の注目度): 23.228142134527292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Transformer-based NeRF (TransNeRF) to learn a generic neural
radiance field conditioned on observed-view images for the novel view synthesis
task. By contrast, existing MLP-based NeRFs are not able to directly receive
observed views with an arbitrary number and require an auxiliary pooling-based
operation to fuse source-view information, resulting in the missing of
complicated relationships between source views and the target rendering view.
Furthermore, current approaches process each 3D point individually and ignore
the local consistency of a radiance field scene representation. These
limitations potentially can reduce their performance in challenging real-world
applications where large differences between source views and a novel rendering
view may exist. To address these challenges, our TransNeRF utilizes the
attention mechanism to naturally decode deep associations of an arbitrary
number of source views into a coordinate-based scene representation. Local
consistency of shape and appearance are considered in the ray-cast space and
the surrounding-view space within a unified Transformer network. Experiments
demonstrate that our TransNeRF, trained on a wide variety of scenes, can
achieve better performance in comparison to state-of-the-art image-based neural
rendering methods in both scene-agnostic and per-scene finetuning scenarios
especially when there is a considerable gap between source views and a
rendering view.
- Abstract(参考訳): 本研究では,新しいビュー合成タスクのための観察画像に条件付き汎用神経放射場を学習するためのTransformer-based NeRF(TransNeRF)を提案する。
対照的に、既存のMLPベースのNeRFは、任意の数で観察されたビューを直接受信することができず、ソースビュー情報を融合するために補助プーリングベースの操作を必要とするため、ソースビューとターゲットレンダリングビューの間の複雑な関係が欠落する。
さらに、現在のアプローチでは、各3dポイントを個別に処理し、ラミアンスフィールドシーン表現の局所的一貫性を無視する。
これらの制限は、ソースビューと新しいレンダリングビューの間に大きな違いが存在する可能性がある現実世界のアプリケーションにおいて、パフォーマンスを低下させる可能性がある。
これらの課題に対処するために、TransNeRFはアテンション機構を利用して、任意の数のソースビューの深い関連を座標ベースのシーン表現に自然に復号する。
形状と外観の局所的な整合性は、統一トランスフォーマーネットワーク内のレイキャスト空間と周辺ビュー空間で考慮される。
実験によって、我々のトランスナーフは、さまざまなシーンで訓練され、特にソースビューとレンダリングビューの間にかなりのギャップがある場合、シーンに依存しないシナリオとシーン毎の微調整シナリオの両方において、最先端の画像ベースのニューラルレンダリング手法よりも優れたパフォーマンスを達成できることが示されました。
関連論文リスト
- CMC: Few-shot Novel View Synthesis via Cross-view Multiplane Consistency [18.101763989542828]
本稿では,入力ビュー間の奥行き認識一貫性を明確かつ効果的に構築する手法を提案する。
我々の重要な洞察は、同じ空間点を異なる入力ビューで繰り返しサンプリングすることで、ビュー間の相互作用を強化することができるということである。
単純かつ広範な実験により,提案手法は最先端の手法よりも優れた合成品質が得られることを示した。
論文 参考訳(メタデータ) (2024-02-26T09:04:04Z) - Local Implicit Ray Function for Generalizable Radiance Field
Representation [20.67358742158244]
本稿では、新しいビューレンダリングのための一般化可能なニューラルレンダリング手法であるLIRF(Local Implicit Ray Function)を提案する。
円錐体フラスタム内の3次元位置が与えられると、LIRFは3次元座標と円錐体フラスタムの特徴を入力として取り、局所体積放射場を予測する。
座標は連続しているため、LIRFはボリュームレンダリングを通じて、高品質の新規ビューを継続的に評価する。
論文 参考訳(メタデータ) (2023-04-25T11:52:33Z) - IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable
Novel View Synthesis [90.03590032170169]
内在性ニューラルレンダリング法に内在性分解を導入した内在性ニューラルレイディアンス場(IntrinsicNeRF)を提案する。
そこで,本研究では,オブジェクト固有・ルームスケールシーンと合成・実単語データの両方を用いて,一貫した本質的な分解結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-02T22:45:11Z) - Cascaded and Generalizable Neural Radiance Fields for Fast View
Synthesis [35.035125537722514]
ビュー合成のためのカスケードおよび一般化可能なニューラル放射場法であるCG-NeRFを提案する。
DTUデータセットの複数の3DシーンでCG-NeRFをトレーニングする。
CG-NeRFは、様々な合成および実データに対して、最先端の一般化可能なニューラルネットワークレンダリング手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-09T12:23:48Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering [55.70938412352287]
ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。
提案手法は,不十分な視点で発生する潜在的な復元の不整合を最小化する。
複数の標準ベンチマークにおいて,既存のニューラルビュー合成手法と比較して一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-31T11:56:01Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。