論文の概要: Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View
Synthesis?
- arxiv url: http://arxiv.org/abs/2403.06092v1
- Date: Sun, 10 Mar 2024 04:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:54:47.998955
- Title: Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View
Synthesis?
- Title(参考訳): バニラmlpはニューラル・ラミアンス・フィールドに数ショット・ビュー合成に十分か?
- Authors: Hanxin Zhu, Tianyu He, Xin Li, Bingchen Li, Zhibo Chen
- Abstract要約: NeRFは、シーンをMLP(Multi-Layer Perception)とボリュームレンダリング手順でモデル化することで、新しいビュー合成において優れた性能を実現している。
既知のビューが少ないと、モデルは与えられたビューを過度に適合させる傾向がある。
- 参考スコア(独自算出の注目度): 19.34823662319042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Radiance Field (NeRF) has achieved superior performance for novel view
synthesis by modeling the scene with a Multi-Layer Perception (MLP) and a
volume rendering procedure, however, when fewer known views are given (i.e.,
few-shot view synthesis), the model is prone to overfit the given views. To
handle this issue, previous efforts have been made towards leveraging learned
priors or introducing additional regularizations. In contrast, in this paper,
we for the first time provide an orthogonal method from the perspective of
network structure. Given the observation that trivially reducing the number of
model parameters alleviates the overfitting issue, but at the cost of missing
details, we propose the multi-input MLP (mi-MLP) that incorporates the inputs
(i.e., location and viewing direction) of the vanilla MLP into each layer to
prevent the overfitting issue without harming detailed synthesis. To further
reduce the artifacts, we propose to model colors and volume density separately
and present two regularization terms. Extensive experiments on multiple
datasets demonstrate that: 1) although the proposed mi-MLP is easy to
implement, it is surprisingly effective as it boosts the PSNR of the baseline
from $14.73$ to $24.23$. 2) the overall framework achieves state-of-the-art
results on a wide range of benchmarks. We will release the code upon
publication.
- Abstract(参考訳): ニューラル・ラミアンス・フィールド(nerf)は、多層知覚(mlp)とボリュームレンダリング手順でシーンをモデル化することで、新規なビュー合成において優れた性能を達成している。
この問題に対処するため、これまでの取り組みは、学習済みの事前の活用や、追加の正規化の導入に向けられていた。
対照的に,本稿では,ネットワーク構造の観点から初めて直交法を提案する。
モデルパラメータの数を自明に減少させることでオーバーフィッティング問題を軽減できるが,詳細が不足しているため,バニラMLPの入力(位置と方向)を各層に組み込んだマルチインプットMLP(mi-MLP)を提案し,詳細な合成を損なうことなくオーバーフィッティング問題を防止する。
さらに,色と容積密度を別々にモデル化し,二つの正規化項を提示する。
複数のデータセットに関する広範囲な実験が示しています
提案されているmi-MLPは実装が容易だが、ベースラインのPSNRを14.73ドルから24.23ドルに上げると驚くほど効果的である。
2) 全般的なフレームワークは、幅広いベンチマークで最先端の結果を達成する。
コードを公開したらリリースします。
関連論文リスト
- Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [44.37155553647802]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示している。
時に、期待された出力と事実的に不正確な、あるいは不一致なコンテンツを生成する。
近年の研究では,幻覚誘発モデルとアマチュアモデルとの対比的復号化について検討している。
LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - Self-improving Multiplane-to-layer Images for Novel View Synthesis [3.9901365062418312]
本稿では,任意の前向きシーンに一般化する軽量ノベルビュー合成法を提案する。
まず、フロント並列半透明平面を用いてシーンを表現し、その後、エンド・ツー・エンドで変形可能なレイヤに変換する。
本手法では,新しいシーンが処理された場合の微調整を必要とせず,制限なく任意の数のビューを処理できる。
論文 参考訳(メタデータ) (2022-10-04T13:27:14Z) - Generalizable Patch-Based Neural Rendering [46.41746536545268]
未知のシーンの新たなビューを合成できるモデル学習のための新しいパラダイムを提案する。
本手法は,シーンから採取したパッチの集合からのみ,新規シーンにおける対象光線の色を直接予測することができる。
本手法は,従来よりも少ないデータでトレーニングされた場合であっても,目立たないシーンの新たなビュー合成において,最先端のビュー合成よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:57:04Z) - ReLU Fields: The Little Non-linearity That Could [62.228229880658404]
我々は,高忠実度結果の保持を可能にするグリッドベース表現に対する最小の変更点について検討する。
このようなアプローチが最先端技術と競合することを示します。
論文 参考訳(メタデータ) (2022-05-22T13:42:31Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from
Sparse Inputs [79.00855490550367]
我々は,多くの入力ビューが利用可能である場合,NeRFは見えない視点のフォトリアリスティックレンダリングを生成することができることを示す。
我々は、未観測の視点からレンダリングされたパッチの幾何学と外観を規則化することで、この問題に対処する。
我々のモデルは、1つのシーンで最適化する他の方法よりも、大規模なマルチビューデータセットで広範囲に事前訓練された条件付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-01T18:59:46Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - Portrait Neural Radiance Fields from a Single Image [68.66958204066721]
本稿では,単一のポートレートからニューラルラジアンス場(NeRF)を推定する手法を提案する。
体積密度を暗黙的にモデル化する多層パーセプトロン(MLP)の重みを事前に訓練することを提案する。
非知覚面の一般化を改善するため、3次元顔変形モデルによって近似される正準座標空間を訓練する。
本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。
論文 参考訳(メタデータ) (2020-12-10T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。