論文の概要: UMAMI: Unifying Masked Autoregressive Models and Deterministic Rendering for View Synthesis
- arxiv url: http://arxiv.org/abs/2512.20107v1
- Date: Tue, 23 Dec 2025 07:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.780156
- Title: UMAMI: Unifying Masked Autoregressive Models and Deterministic Rendering for View Synthesis
- Title(参考訳): UMAMI:ビュー合成のためのマスク付き自己回帰モデルの統合と決定論的レンダリング
- Authors: Thanh-Tung Le, Tuan Pham, Tung Nguyen, Deying Kong, Xiaohui Xie, Stephan Mandt,
- Abstract要約: 新たなビュー合成(NVS)は、シーンの写実的で3D一貫性のある画像を、未確認のカメラのポーズからレンダリングすることを目的としている。
既存の決定論的ネットワークは、観測された領域を素早くレンダリングするが、観測されていない領域をぼかす。
両パラダイムの長所を統一するハイブリッドフレームワークを提案する。双方向トランスフォーマーは多視点画像トークンとプルッカー線埋め込みを符号化し、共有潜在表現を生成する。
- 参考スコア(独自算出の注目度): 28.245380116188883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel view synthesis (NVS) seeks to render photorealistic, 3D-consistent images of a scene from unseen camera poses given only a sparse set of posed views. Existing deterministic networks render observed regions quickly but blur unobserved areas, whereas stochastic diffusion-based methods hallucinate plausible content yet incur heavy training- and inference-time costs. In this paper, we propose a hybrid framework that unifies the strengths of both paradigms. A bidirectional transformer encodes multi-view image tokens and Plucker-ray embeddings, producing a shared latent representation. Two lightweight heads then act on this representation: (i) a feed-forward regression head that renders pixels where geometry is well constrained, and (ii) a masked autoregressive diffusion head that completes occluded or unseen regions. The entire model is trained end-to-end with joint photometric and diffusion losses, without handcrafted 3D inductive biases, enabling scalability across diverse scenes. Experiments demonstrate that our method attains state-of-the-art image quality while reducing rendering time by an order of magnitude compared with fully generative baselines.
- Abstract(参考訳): 新たなビュー合成(NVS)は、シーンの写実的で3D一貫性のある画像を、未確認のカメラのポーズからレンダリングすることを目的としている。
既存の決定論的ネットワークは観察された領域を素早くレンダリングするが、観測されていない領域をぼかす。
本稿では,両パラダイムの強みを統一するハイブリッドフレームワークを提案する。
双方向変換器は、多視点画像トークンとプルッカー線埋め込みを符号化し、共有潜在表現を生成する。
2つの軽量ヘッドがこの表現に作用します。
(i)幾何がよく制約された画素を描画するフィードフォワード回帰ヘッド
(ii)隠蔽された領域や見えない領域を完結させるマスク付き自己回帰拡散ヘッド。
モデル全体は、手作りの3Dインダクティブバイアスなしで、共同測光と拡散損失でエンドツーエンドにトレーニングされ、多様なシーンでスケーラビリティが実現される。
実験により,本手法は,完全生成ベースラインに比べてレンダリング時間を桁違いに削減しつつ,最先端の画像品質が得られることを示した。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SparseFusion: Distilling View-conditioned Diffusion for 3D
Reconstruction [26.165314261806603]
ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。
既存のアプローチは、通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis [43.4859484191223]
近年,単一シーンの新規なビュー合成に成功している放射場生成モデルを提案する。
マルチスケールのパッチベース判別器を導入し,非姿勢の2次元画像からモデルを訓練しながら高解像度画像の合成を実演する。
論文 参考訳(メタデータ) (2020-07-05T20:37:39Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。