論文の概要: BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model
- arxiv url: http://arxiv.org/abs/2602.22596v1
- Date: Thu, 26 Feb 2026 03:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.519646
- Title: BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model
- Title(参考訳): BetterScene:Representation-Aligned Generative Modelを用いた3次元シーン合成
- Authors: Yuci Han, Charles Toth, John E. Anderson, William J. Shuart, Alper Yilmaz,
- Abstract要約: 我々は,高度にスパースで制約のない写真を用いて,多様な現実世界のシーンに対して,新しいビュー合成(NVS)の品質を高めるアプローチであるBetterSceneを提案する。
BetterSceneは、数十億のフレームで事前訓練されたプロダクション対応の安定ビデオ拡散(SVD)モデルを強力なバックボーンとして活用する。
我々は,挑戦的なDL3DV-10Kデータセットを評価し,最先端手法と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 3.7515646463759698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BetterScene, an approach to enhance novel view synthesis (NVS) quality for diverse real-world scenes using extremely sparse, unconstrained photos. BetterScene leverages the production-ready Stable Video Diffusion (SVD) model pretrained on billions of frames as a strong backbone, aiming to mitigate artifacts and recover view-consistent details at inference time. Conventional methods have developed similar diffusion-based solutions to address these challenges of novel view synthesis. Despite significant improvements, these methods typically rely on off-the-shelf pretrained diffusion priors and fine-tune only the UNet module while keeping other components frozen, which still leads to inconsistent details and artifacts even when incorporating geometry-aware regularizations like depth or semantic conditions. To address this, we investigate the latent space of the diffusion model and introduce two components: (1) temporal equivariance regularization and (2) vision foundation model-aligned representation, both applied to the variational autoencoder (VAE) module within the SVD pipeline. BetterScene integrates a feed-forward 3D Gaussian Splatting (3DGS) model to render features as inputs for the SVD enhancer and generate continuous, artifact-free, consistent novel views. We evaluate on the challenging DL3DV-10K dataset and demonstrate superior performance compared to state-of-the-art methods.
- Abstract(参考訳): BetterSceneは、非常にスパースで制約のない写真を用いて、多様な現実世界のシーンに対して、斬新なビュー合成(NVS)品質を向上させるアプローチである。
BetterSceneは、数十億のフレームで事前訓練されたプロダクション対応の安定ビデオ拡散(SVD)モデルを強力なバックボーンとして活用し、アーティファクトを緩和し、推論時にビュー一貫性の詳細を復元する。
従来の方法では、新しいビュー合成のこれらの課題に対処するために、同様の拡散ベースのソリューションが開発されている。
大幅な改善にもかかわらず、これらの手法は通常、既製の事前訓練された拡散先とUNetモジュールのみを微調整し、他のコンポーネントを凍結させながら、深さやセマンティック条件のような幾何学的に認識された正規化を組み込んだ場合でも、矛盾した詳細やアーティファクトをもたらす。
そこで本研究では,拡散モデルの潜時空間について検討し,(1)時間的等分散正規化と(2)視覚基盤モデル整合表現の2つの要素をSVDパイプライン内の変分オートエンコーダ(VAE)モジュールに適用する。
BetterSceneはフィードフォワード3Dガウススプラッティング(3DGS)モデルを統合し、SVDエンハンサーの入力として機能をレンダリングし、連続的でアーチファクトフリーで一貫した新しいビューを生成する。
我々は,挑戦的なDL3DV-10Kデータセットを評価し,最先端手法と比較して優れた性能を示した。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。
提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文 参考訳(メタデータ) (2025-10-11T08:13:46Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - Enhancing Novel View Synthesis from extremely sparse views with SfM-free 3D Gaussian Splatting Framework [14.927184256861807]
本稿では,SfMフリーな3DGSを用いたカメラのポーズを推定し,非常にスムーズな視点から3Dシーンを再構成する手法を提案する。
提案手法は,PSNRの高度2.75dB改善を極端に軽視条件下で達成し,他の最先端3DGS法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-21T11:25:24Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。