論文の概要: NeRF Director: Revisiting View Selection in Neural Volume Rendering
- arxiv url: http://arxiv.org/abs/2406.08839v1
- Date: Thu, 13 Jun 2024 06:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:08:42.575687
- Title: NeRF Director: Revisiting View Selection in Neural Volume Rendering
- Title(参考訳): ニューラルボリュームレンダリングにおける視点選択の再考
- Authors: Wenhui Xiao, Rodrigo Santa Cruz, David Ahmedt-Aristizabal, Olivier Salvado, Clinton Fookes, Leo Lebrat,
- Abstract要約: 我々は、ビュー選択方法の統合フレームワークを導入し、その影響を評価するためのベンチマークを考案する。
より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。
提案手法の有効性を実証するために,合成データセットと現実データの両方について広範な実験を行った。
- 参考スコア(独自算出の注目度): 21.03892888687864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Rendering representations have significantly contributed to the field of 3D computer vision. Given their potential, considerable efforts have been invested to improve their performance. Nonetheless, the essential question of selecting training views is yet to be thoroughly investigated. This key aspect plays a vital role in achieving high-quality results and aligns with the well-known tenet of deep learning: "garbage in, garbage out". In this paper, we first illustrate the importance of view selection by demonstrating how a simple rotation of the test views within the most pervasive NeRF dataset can lead to consequential shifts in the performance rankings of state-of-the-art techniques. To address this challenge, we introduce a unified framework for view selection methods and devise a thorough benchmark to assess its impact. Significant improvements can be achieved without leveraging error or uncertainty estimation but focusing on uniform view coverage of the reconstructed object, resulting in a training-free approach. Using this technique, we show that high-quality renderings can be achieved faster by using fewer views. We conduct extensive experiments on both synthetic datasets and realistic data to demonstrate the effectiveness of our proposed method compared with random, conventional error-based, and uncertainty-guided view selection.
- Abstract(参考訳): ニューラルレンダリング表現は3Dコンピュータビジョンの分野に大きく貢献している。
彼らの潜在能力を考えると、パフォーマンスを改善するためにかなりの努力が払われている。
それにもかかわらず、トレーニングビューを選択する上で不可欠な問題は、まだ徹底的に調査されていない。
この重要な側面は、高品質な結果を達成する上で重要な役割を担います。
本稿では,最も広く普及しているNeRFデータセットにおけるテストビューの単純な回転が,最先端技術の性能ランキングに連続的な変化をもたらすことを示すことによって,ビュー選択の重要性を最初に説明する。
この課題に対処するために、ビュー選択手法の統合フレームワークを導入し、その影響を評価するための徹底的なベンチマークを考案する。
エラーや不確かさの見積を使わずに重要な改善が達成できるが、再構成対象の統一的な視野カバレッジに焦点をあてることで、トレーニング不要なアプローチが実現される。
この手法を用いて、より少ないビューを使用することで、高品質なレンダリングを高速に実現できることを示す。
提案手法の有効性を,ランダム,従来型エラーベース,不確実性誘導型ビュー選択と比較するために,合成データセットと現実データの両方について広範な実験を行った。
関連論文リスト
- Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Towards Robust and Accurate Visual Prompting [11.918195429308035]
本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。
本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。
本研究は普遍的であり,提案手法の意義を実証するものである。
論文 参考訳(メタデータ) (2023-11-18T07:00:56Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Stable and Causal Inference for Discriminative Self-supervised Deep
Visual Representations [10.41003719027387]
我々は、不安定な行動を説明するために、因果的観点から差別的自己監督手法を分析する。
我々のソリューションは、制御された合成データで線形変換を温めることを含む。
論文 参考訳(メタデータ) (2023-08-16T12:30:17Z) - Improving Viewpoint Robustness for Visual Recognition via Adversarial
Training [26.824940629150362]
画像分類器の視点ロバスト性を改善するために,ビューポイント不変適応訓練(VIAT)を提案する。
GMVFool が生成する敵対的視点の多様性に基づいて,VIAT は様々な画像分類器の視点ロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-07-21T12:18:35Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。