論文の概要: Is Attention All NeRF Needs?
- arxiv url: http://arxiv.org/abs/2207.13298v1
- Date: Wed, 27 Jul 2022 05:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:30:19.273371
- Title: Is Attention All NeRF Needs?
- Title(参考訳): NeRFは必要か?
- Authors: Mukund Varma T, Peihao Wang, Xuxi Chen, Tianlong Chen, Subhashini
Venugopalan, Zhangyang Wang
- Abstract要約: Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
- 参考スコア(独自算出の注目度): 103.51023982774599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Generalizable NeRF Transformer (GNT), a pure, unified
transformer-based architecture that efficiently reconstructs Neural Radiance
Fields (NeRFs) on the fly from source views. Unlike prior works on NeRF that
optimize a per-scene implicit representation by inverting a handcrafted
rendering equation, GNT achieves generalizable neural scene representation and
rendering, by encapsulating two transformer-based stages. The first stage of
GNT, called view transformer, leverages multi-view geometry as an inductive
bias for attention-based scene representation, and predicts coordinate-aligned
features by aggregating information from epipolar lines on the neighboring
views. The second stage of GNT, named ray transformer, renders novel views by
ray marching and directly decodes the sequence of sampled point features using
the attention mechanism. Our experiments demonstrate that when optimized on a
single scene, GNT can successfully reconstruct NeRF without explicit rendering
formula, and even improve the PSNR by ~1.3dB on complex scenes due to the
learnable ray renderer. When trained across various scenes, GNT consistently
achieves the state-of-the-art performance when transferring to forward-facing
LLFF dataset (LPIPS ~20%, SSIM ~25%$) and synthetic blender dataset (LPIPS
~20%, SSIM ~4%). In addition, we show that depth and occlusion can be inferred
from the learned attention maps, which implies that the pure attention
mechanism is capable of learning a physically-grounded rendering process. All
these results bring us one step closer to the tantalizing hope of utilizing
transformers as the "universal modeling tool" even for graphics. Please refer
to our project page for video results: https://vita-group.github.io/GNT/.
- Abstract(参考訳): 我々は、ソースビューから高速にニューラルラジアンスフィールド(NeRF)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャであるGeneralizable NeRF Transformer (GNT)を提案する。
ハンドクラフトレンダリング方程式を反転させることでシーンごとの暗黙表現を最適化するNeRFの以前の研究とは異なり、GNTは2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
GNTの第1段階はビュートランスフォーマーと呼ばれ、多視点幾何を注意に基づくシーン表現の帰納的バイアスとして利用し、隣接するビューのエピポーラ線からの情報を集約することで座標整列特性を予測する。
GNTの第2段階は、レイマーキングによって新しいビューを描画し、アテンション機構を用いてサンプリングされた点特徴のシーケンスを直接デコードする。
実験により、単一シーンに最適化された場合、GNTは明示的なレンダリング式を使わずにNeRFを再構築し、学習可能なレイレンダラーにより複雑なシーンでPSNRを約1.3dB向上させることができた。
さまざまな場面でトレーニングされた場合、GNTは、前向きLLFFデータセット(LPIPS ~20%、SSIM ~25%$)と合成ミキサーデータセット(LPIPS ~20%、SSIM ~4%)に転送する際に、常に最先端のパフォーマンスを達成する。
さらに、学習した注目マップから深度と閉塞度を推定できることを示し、純粋な注意機構が物理的に座屈したレンダリング過程を学習可能であることを示唆する。
これらの結果は,グラフィックにおいても,トランスフォーマーを"ユニバーサルモデリングツール"として活用するという,魅力的な希望に一歩近づいた。
ビデオの結果については、プロジェクトページを参照してください。
関連論文リスト
- CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - End-to-end View Synthesis via NeRF Attention [71.06080186332524]
ビュー合成のための単純なSeq2seqの定式化を行い、そこでは、一連の光点を光線に対応する入力色と出力色として取り出す。
神経放射場 (NeRF) に着想を得て, 上記の問題に対処するためのNeRFアテンション (NeRFA) を提案する。
NeRFAは4つのデータセット上で、NeRFとNerFormerよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-07-29T15:26:16Z) - Generalizable Neural Radiance Fields for Novel View Synthesis with
Transformer [23.228142134527292]
本研究では,Transformer-based NeRF (TransNeRF) を用いて,観測画像に基づく汎用的ニューラルラディアンス場を学習する。
さまざまなシーンでトレーニングされたTransNeRFは、最先端の画像ベースのニューラルネットワークレンダリング手法と比較して、パフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2022-06-10T23:16:43Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Rethinking Graph Transformers with Spectral Attention [13.068288784805901]
我々は、学習された位置符号化(LPE)を用いて、与えられたグラフ内の各ノードの位置を学習するtextitSpectral Attention Network$(SAN)を提示する。
ラプラシアンの完全なスペクトルを利用することで、我々のモデルは理論上グラフの区別に強力であり、類似のサブ構造を共鳴からよりよく検出することができる。
我々のモデルは最先端のGNNよりも同等かそれ以上の性能を発揮し、あらゆる注目ベースモデルよりも広いマージンで性能を向上する。
論文 参考訳(メタデータ) (2021-06-07T18:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。