論文の概要: GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis
- arxiv url: http://arxiv.org/abs/2505.19813v1
- Date: Mon, 26 May 2025 10:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.367494
- Title: GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis
- Title(参考訳): GoLF-NRT:Few-Shot View 合成のためのグローバルコンテキストと局所幾何学の統合
- Authors: You Wang, Li Fang, Hao Zhu, Fei Hu, Long Ye, Zhan Ma,
- Abstract要約: 核融合型ニューラルレンダリング変換器GoLF-NRTを提案する。
GoLF-NRTは、少数の入力ビューから一般化可能なニューラルレンダリングを強化する。
実験の結果,GoLF-NRTは様々な入力ビューで最先端のパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 24.10068225852128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Radiance Fields (NeRF) have transformed novel view synthesis by modeling scene-specific volumetric representations directly from images. While generalizable NeRF models can generate novel views across unknown scenes by learning latent ray representations, their performance heavily depends on a large number of multi-view observations. However, with limited input views, these methods experience significant degradation in rendering quality. To address this limitation, we propose GoLF-NRT: a Global and Local feature Fusion-based Neural Rendering Transformer. GoLF-NRT enhances generalizable neural rendering from few input views by leveraging a 3D transformer with efficient sparse attention to capture global scene context. In parallel, it integrates local geometric features extracted along the epipolar line, enabling high-quality scene reconstruction from as few as 1 to 3 input views. Furthermore, we introduce an adaptive sampling strategy based on attention weights and kernel regression, improving the accuracy of transformer-based neural rendering. Extensive experiments on public datasets show that GoLF-NRT achieves state-of-the-art performance across varying numbers of input views, highlighting the effectiveness and superiority of our approach. Code is available at https://github.com/KLMAV-CUC/GoLF-NRT.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)は、画像から直接シーン固有の容積表現をモデル化することによって、新しいビュー合成を変換している。
一般化可能なNeRFモデルは、潜在光線表現を学習することで未知のシーンに新しいビューを生成することができるが、その性能は多数のマルチビュー観測に依存する。
しかし、入力ビューが限られているため、これらの手法はレンダリング品質が著しく低下する。
この制限に対処するため,Global and Local feature Fusion-based Neural Rendering Transformerを提案する。
GoLF-NRTは、グローバルシーンコンテキストをキャプチャするために、効率的なスパースアテンションを持つ3Dトランスフォーマーを活用することで、少数の入力ビューから一般化可能なニューラルレンダリングを強化する。
平行して、エピポーラ線に沿って抽出された局所幾何学的特徴を統合し、1から3までの入力ビューから高品質なシーン再構築を可能にする。
さらに、注意重みとカーネル回帰に基づく適応的なサンプリング戦略を導入し、トランスフォーマーベースのニューラルレンダリングの精度を向上させる。
公開データセットに対する大規模な実験により、GoLF-NRTは様々な入力ビューで最先端のパフォーマンスを実現し、我々のアプローチの有効性と優位性を強調した。
コードはhttps://github.com/KLMAV-CUC/GoLF-NRTで公開されている。
関連論文リスト
- Learning Robust Generalizable Radiance Field with Visibility and Feature
Augmented Point Representation [7.203073346844801]
本稿では、一般化可能なニューラル放射場(NeRF)のための新しいパラダイムを提案する。
本稿では、画像ベースレンダリングではなく、点ベースに基づく一般化可能なニューラルネットワークを構築するための第1のパラダイムを提案する。
我々のアプローチは、幾何的先行性によって鮮度を明示的にモデル化し、それらをニューラル特徴で拡張する。
論文 参考訳(メタデータ) (2024-01-25T17:58:51Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Learning Neural Duplex Radiance Fields for Real-Time View Synthesis [33.54507228895688]
本研究では,NeRFを高効率メッシュベースニューラル表現に蒸留・焼成する手法を提案する。
提案手法の有効性と優位性を,各種標準データセットの広範な実験を通じて実証する。
論文 参考訳(メタデータ) (2023-04-20T17:59:52Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Generalizable Neural Radiance Fields for Novel View Synthesis with
Transformer [23.228142134527292]
本研究では,Transformer-based NeRF (TransNeRF) を用いて,観測画像に基づく汎用的ニューラルラディアンス場を学習する。
さまざまなシーンでトレーニングされたTransNeRFは、最先端の画像ベースのニューラルネットワークレンダリング手法と比較して、パフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2022-06-10T23:16:43Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。