論文の概要: Aug3D: Augmenting large scale outdoor datasets for Generalizable Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2501.06431v1
- Date: Sat, 11 Jan 2025 04:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:00.291761
- Title: Aug3D: Augmenting large scale outdoor datasets for Generalizable Novel View Synthesis
- Title(参考訳): Aug3D: 一般化可能な新規ビュー合成のための大規模屋外データセットの拡大
- Authors: Aditya Rauniyar, Omar Alama, Silong Yong, Katia Sycara, Sebastian Scherer,
- Abstract要約: 大規模なUrbanScene3Dデータセット上で,フィードフォワードNVSモデルであるPixelNeRFをトレーニングする。
Aug3Dは、フィードフォワードNVSモデル学習を強化するために、グリッドとセマンティックサンプリングを通じて、よく調和した新しいビューを生成する。
実験の結果,クラスタ毎のビュー数を20から10に削減することでPSNRが10%向上することがわかった。
- 参考スコア(独自算出の注目度): 1.2420608329006513
- License:
- Abstract: Recent photorealistic Novel View Synthesis (NVS) advances have increasingly gained attention. However, these approaches remain constrained to small indoor scenes. While optimization-based NVS models have attempted to address this, generalizable feed-forward methods, offering significant advantages, remain underexplored. In this work, we train PixelNeRF, a feed-forward NVS model, on the large-scale UrbanScene3D dataset. We propose four training strategies to cluster and train on this dataset, highlighting that performance is hindered by limited view overlap. To address this, we introduce Aug3D, an augmentation technique that leverages reconstructed scenes using traditional Structure-from-Motion (SfM). Aug3D generates well-conditioned novel views through grid and semantic sampling to enhance feed-forward NVS model learning. Our experiments reveal that reducing the number of views per cluster from 20 to 10 improves PSNR by 10%, but the performance remains suboptimal. Aug3D further addresses this by combining the newly generated novel views with the original dataset, demonstrating its effectiveness in improving the model's ability to predict novel views.
- Abstract(参考訳): 最近のフォトリアリスティック・ノベルビュー・シンセサイザー(NVS)の進歩は注目されている。
しかし、これらのアプローチは小さな屋内シーンに制約されている。
最適化ベースのNVSモデルはこの問題に対処しようと試みているが、フィードフォワード法は大きな利点を提供するが、まだ未探索のままである。
本研究では,大規模なUrbanScene3Dデータセット上で,フィードフォワードNVSモデルであるPixelNeRFをトレーニングする。
このデータセットをクラスタ化し、トレーニングするための4つのトレーニング戦略を提案し、限られたビューオーバーラップによってパフォーマンスが妨げられていることを強調した。
そこで本稿では,従来のStructure-from-Motion (SfM) を用いた再構成シーンを利用した拡張手法であるAug3Dを紹介する。
Aug3Dは、フィードフォワードNVSモデル学習を強化するために、グリッドとセマンティックサンプリングを通じて、よく調和した新しいビューを生成する。
実験の結果,クラスタ毎のビュー数を20から10に削減することでPSNRが10%向上することがわかった。
Aug3Dは、新しく生成された新しいビューと元のデータセットを組み合わせることで、新しいビューを予測するモデルの能力を改善する効果を実証している。
関連論文リスト
- See In Detail: Enhancing Sparse-view 3D Gaussian Splatting with Local Depth and Semantic Regularization [14.239772421978373]
3次元ガウス散乱(3DGS)は、新規なビュー合成において顕著な性能を示した。
しかし、そのレンダリング品質は、粗いインフットビューによって劣化し、歪んだコンテンツと細部が減少する。
本稿では,事前情報を取り入れたスパースビュー3DGS法を提案する。
LLFFデータセット上でPSNRを最大0.4dB改善し、最先端の新規ビュー合成手法より優れる。
論文 参考訳(メタデータ) (2025-01-20T14:30:38Z) - Novel View Synthesis with Pixel-Space Diffusion Models [4.844800099745365]
新規ビュー合成(NVS)に遺伝子モデルがますます採用されている
画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。
単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
論文 参考訳(メタデータ) (2024-11-12T12:58:33Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Efficient Depth-Guided Urban View Synthesis [52.841803876653465]
高速フィードフォワード推論とシーンごとのファインチューニングのための効率的な深層誘導型都市ビュー合成(EDUS)を提案する。
EDUSは、粗い入力画像から一般化可能な都市ビュー合成を可能にするためのガイダンスとして、ノイズの多い幾何学的先行情報を利用する。
その結果,EDUSは高速なテスト時間最適化と組み合わせることで,スパース・ビュー・セッティングにおける最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T08:16:25Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields [54.8553158441296]
統一された点ベース表現に基づく新しい視覚的ローカライゼーションフレームワーク PNeRFLoc を提案する。
一方、PNeRFLocは2次元特徴点と3次元特徴点をマッチングして初期ポーズ推定をサポートする。
一方、レンダリングベースの最適化を用いた新しいビュー合成によるポーズ改善も実現している。
論文 参考訳(メタデータ) (2023-12-17T08:30:00Z) - Re-Nerfing: Improving Novel View Synthesis through Novel View Synthesis [80.3686833921072]
最近のニューラルレンダリングや、NeRFsやGaussian Splattingのような再構成技術は、目覚ましいビュー合成能力を示している。
画像が少ないほど、これらの手法は、基礎となる3D幾何学を正しく三角測量できないため、失敗し始めます。
本稿では,新規なビュー合成自体を活用するシンプルで汎用的なアドオン手法であるRe-Nerfingを提案する。
論文 参考訳(メタデータ) (2023-12-04T18:56:08Z) - Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。
提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。
これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2021-11-29T15:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。