論文の概要: FreeScale: Scaling 3D Scenes via Certainty-Aware Free-View Generation
- arxiv url: http://arxiv.org/abs/2604.10512v1
- Date: Sun, 12 Apr 2026 08:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.0661
- Title: FreeScale: Scaling 3D Scenes via Certainty-Aware Free-View Generation
- Title(参考訳): FreeScale: 確実なフリービュー生成による3Dシーンのスケーリング
- Authors: Chenhan Jiang, Yu Chen, Qingwen Zhang, Jifei Song, Songcen Xu, Dit-Yan Yeung, Jiankang Deng,
- Abstract要約: FreeScaleは、限られた現実世界の画像シーケンスを、高品質なトレーニングデータのスケーラブルなソースに変換するフレームワークである。
フィードフォワードNVSモデルのトレーニングをスケールアップし,PSNRにおける2.7dBの顕著なゲインを達成することにより,FreeScaleの有効性を示す。
私たちの仕事は、3Dビジョンの根本的なボトルネックを克服するために、実用的で強力なデータ生成エンジンを提供します。
- 参考スコア(独自算出の注目度): 75.74617373156902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of generalizable Novel View Synthesis (NVS) models is critically limited by the scarcity of large-scale training data featuring diverse and precise camera trajectories. While real-world captures are photorealistic, they are typically sparse and discrete. Conversely, synthetic data scales but suffers from a domain gap and often lacks realistic semantics. We introduce FreeScale, a novel framework that leverages the power of scene reconstruction to transform limited real-world image sequences into a scalable source of high-quality training data. Our key insight is that an imperfect reconstructed scene serves as a rich geometric proxy, but naively sampling from it amplifies artifacts. To this end, we propose a certainty-aware free-view sampling strategy identifying novel viewpoints that are both semantically meaningful and minimally affected by reconstruction errors. We demonstrate FreeScale's effectiveness by scaling up the training of feedforward NVS models, achieving a notable gain of 2.7 dB in PSNR on challenging out-of-distribution benchmarks. Furthermore, we show that the generated data can actively enhance per-scene 3D Gaussian Splatting optimization, leading to consistent improvements across multiple datasets. Our work provides a practical and powerful data generation engine to overcome a fundamental bottleneck in 3D vision. Project page: https://mvp-ai-lab.github.io/FreeScale.
- Abstract(参考訳): 一般化可能なノベルビュー合成(NVS)モデルの開発は、多種多様な正確なカメラ軌跡を特徴とする大規模トレーニングデータの不足により、極めて制限されている。
現実世界のキャプチャーはフォトリアリスティックだが、通常はまばらで離散的である。
逆に、合成データはスケールするが、ドメインギャップに悩まされ、しばしば現実的な意味論に欠ける。
我々は、シーン再構成のパワーを活用して、限られた現実世界の画像シーケンスを高品質なトレーニングデータのスケーラブルなソースに変換する新しいフレームワークFreeScaleを紹介する。
我々の重要な洞察は、不完全な再構成されたシーンはリッチな幾何学的プロキシとして機能するが、それから鼻でサンプリングすることでアーティファクトを増幅するということだ。
そこで本研究では,意味的に意味があり,再現エラーの影響を最小限に抑える新しい視点を識別する,確実なフリービューサンプリング戦略を提案する。
フィードフォワードNVSモデルのトレーニングをスケールアップすることでFreeScaleの有効性を実証し,PSNRにおけるアウト・オブ・ディストリビューションベンチマークへの挑戦において,2.7dBの顕著な向上を達成した。
さらに、生成したデータは、シーンごとの3Dガウススプラッティング最適化を積極的に強化し、複数のデータセット間で一貫した改善をもたらすことを示す。
私たちの仕事は、3Dビジョンの根本的なボトルネックを克服するために、実用的で強力なデータ生成エンジンを提供します。
プロジェクトページ: https://mvp-ai-lab.github.io/FreeScale.com
関連論文リスト
- Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Learning to Drop Points for LiDAR Scan Synthesis [5.132259673802809]
3Dシーンのジェネラティブモデリングは、モバイルロボットが信頼できない観察を改善するための重要なトピックです。
点雲に関する既存の研究のほとんどは、小さく均一な密度のデータに焦点を当てている。
移動ロボットで広く使われている3次元LiDAR点雲は、多数の点と様々な密度のために扱いにくい。
本論文では,リアルなLiDARデータを改良した2次元表現として合成する,ジェネレーティブ・アドバーサリ・ネットワークに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T21:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。