論文の概要: The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge
- arxiv url: http://arxiv.org/abs/2506.09885v1
- Date: Wed, 11 Jun 2025 15:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.110914
- Title: The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge
- Title(参考訳): 3Dの知識を必要とせずに、まばらで無作為な画像から新しいビューを合成する
- Authors: Haoru Wang, Kai Ye, Yangyan Li, Wenzheng Chen, Baoquan Chen,
- Abstract要約: 一般化可能な新規ビュー合成(NVS)の問題を考える。
NVSは、シーンごとの最適化なしにスパースやアンポーズされた2D画像から新しいビューを生成することを目的としている。
我々は,3次元誘導バイアスを最小限に抑え,入力とターゲットの両方のビューに依存性を生じさせる新しいNVSフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.53942289386553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of generalizable novel view synthesis (NVS), which aims to generate photorealistic novel views from sparse or even unposed 2D images without per-scene optimization. This task remains fundamentally challenging, as it requires inferring 3D structure from incomplete and ambiguous 2D observations. Early approaches typically rely on strong 3D knowledge, including architectural 3D inductive biases (e.g., embedding explicit 3D representations, such as NeRF or 3DGS, into network design) and ground-truth camera poses for both input and target views. While recent efforts have sought to reduce the 3D inductive bias or the dependence on known camera poses of input views, critical questions regarding the role of 3D knowledge and the necessity of circumventing its use remain under-explored. In this work, we conduct a systematic analysis on the 3D knowledge and uncover a critical trend: the performance of methods that requires less 3D knowledge accelerates more as data scales, eventually achieving performance on par with their 3D knowledge-driven counterparts, which highlights the increasing importance of reducing dependence on 3D knowledge in the era of large-scale data. Motivated by and following this trend, we propose a novel NVS framework that minimizes 3D inductive bias and pose dependence for both input and target views. By eliminating this 3D knowledge, our method fully leverages data scaling and learns implicit 3D awareness directly from sparse 2D images, without any 3D inductive bias or pose annotation during training. Extensive experiments demonstrate that our model generates photorealistic and 3D-consistent novel views, achieving even comparable performance with methods that rely on posed inputs, thereby validating the feasibility and effectiveness of our data-centric paradigm. Project page: https://pku-vcl-geometry.github.io/Less3Depend/ .
- Abstract(参考訳): 本研究では,空間ごとの最適化を行なわずにスパースやアンポーズな2次元画像から光リアルな新規ビューを生成することを目的とした,一般化可能な新規ビュー合成(NVS)の課題について考察する。
この課題は、不完全で曖昧な2次元観測から3次元構造を推定する必要があるため、基本的に難しいままである。
初期のアプローチは、3Dインダクティブバイアス(例えば、NeRFや3DGSのような明示的な3D表現をネットワーク設計に組み込む)や、入力とターゲットの両方のビューのための地平線カメラのポーズなど、強い3D知識に依存していた。
近年,3Dインダクティブ・バイアスの低減や,既知のカメラ・ポーズへの依存の低減が試みられているが,3D知識の役割や回避の必要性に関する批判的な疑問はいまだ未解決のままである。
本研究は,3次元知識を体系的に分析し,より少ない3次元知識を要求される手法の性能がデータスケールで向上し,最終的には大規模データ時代における3次元知識への依存を減らすことの重要性が強調される。
この傾向を背景として、3次元誘導バイアスを最小化し、入力とターゲットの両方のビューに依存性を示す新しいNVSフレームワークを提案する。
この3D知識をなくすことにより、トレーニング中に3D帰納的バイアスやアノテーションを伴わずに、データスケーリングを完全に活用し、スパース2D画像から直接暗黙的な3D認識を学習する。
広汎な実験により,本モデルはフォトリアリスティックかつ3D一貫性のある新規なビューを生成し,提案した入力に依存する手法と同等の性能を実現し,データ中心のパラダイムの有効性と有効性を検証する。
プロジェクトページ: https://pku-vcl-geometry.github.io/Less3Depend/。
関連論文リスト
- SE3D: A Framework For Saliency Method Evaluation In 3D Imaging [4.090991964172346]
3D畳み込みニューラルネットワーク(3D CNN)は、LIDAR、MRI、CTスキャンを処理できる。
Explainable Artificial Intelligenceの最近の進歩にもかかわらず、3D CNNの説明にはほとんど注力していない。
本稿では,3次元イメージングにおけるSaliency Method EvaluationのためのフレームワークSE3Dを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:55:11Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。