論文の概要: Scaling Sequence-to-Sequence Generative Neural Rendering
- arxiv url: http://arxiv.org/abs/2510.04236v1
- Date: Sun, 05 Oct 2025 15:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.536132
- Title: Scaling Sequence-to-Sequence Generative Neural Rendering
- Title(参考訳): 拡張シーケンスからシーケンスへの生成ニューラルレンダリング
- Authors: Shikun Liu, Kam Woh Ng, Wonbong Jang, Jiadong Guo, Junlin Han, Haozhe Liu, Yiannis Douratsos, Juan C. Pérez, Zijian Zhou, Chi Phung, Tao Xiang, Juan-Manuel Pérez-Rúa,
- Abstract要約: Kaleidoは、フォトリアリスティック、統一オブジェクト、シーンレベルのニューラルレンダリングのために設計された生成モデルのファミリーである。
モデルを可能にする重要なアーキテクチャ革新を紹介します。
明示的な3D表現なしで生成的なビュー合成を行う。
参照ビューの任意の数で条件付き6-DoFターゲットビューを生成します。
シームレスに3Dおよびビデオモデリングを1つのデコーダのみの整流トランスに統一する。
- 参考スコア(独自算出の注目度): 37.23230422802279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Kaleido, a family of generative models designed for photorealistic, unified object- and scene-level neural rendering. Kaleido operates on the principle that 3D can be regarded as a specialised sub-domain of video, expressed purely as a sequence-to-sequence image synthesis task. Through a systemic study of scaling sequence-to-sequence generative neural rendering, we introduce key architectural innovations that enable our model to: i) perform generative view synthesis without explicit 3D representations; ii) generate any number of 6-DoF target views conditioned on any number of reference views via a masked autoregressive framework; and iii) seamlessly unify 3D and video modelling within a single decoder-only rectified flow transformer. Within this unified framework, Kaleido leverages large-scale video data for pre-training, which significantly improves spatial consistency and reduces reliance on scarce, camera-labelled 3D datasets -- all without any architectural modifications. Kaleido sets a new state-of-the-art on a range of view synthesis benchmarks. Its zero-shot performance substantially outperforms other generative methods in few-view settings, and, for the first time, matches the quality of per-scene optimisation methods in many-view settings.
- Abstract(参考訳): 我々は、フォトリアリスティック、統一オブジェクト、シーンレベルのニューラルレンダリングのために設計された生成モデルのファミリーであるKaleidoを紹介する。
Kaleidoは、3Dをビデオの特殊化サブドメインと見なすことができ、純粋にシーケンスからシーケンスへの画像合成タスクとして表現できる、という原則に基づいている。
シーケンスからシーケンスへの生成的ニューラルレンダリングのスケーリングに関する体系的研究を通じて、我々は、モデルを実現するための重要なアーキテクチャ革新を紹介します。
一 明示的な3D表現を伴わずに生成的なビュー合成を行うこと。
二 マスク付き自己回帰フレームワークを介して、基準ビューの何れかに条件付き6-DoF目標ビューを生成し、
三 単一の復号器のみの整流変圧器において、3D及びビデオモデリングをシームレスに一体化すること。
この統合されたフレームワークの中で、Kaleidoは事前トレーニングに大規模なビデオデータを活用し、空間的一貫性を大幅に改善し、少ないカメラ付き3Dデータセットへの依存を減らす。
Kaleidoは、さまざまなビュー合成ベンチマークに基づいて、最先端の新たな状態を設定する。
ゼロショットのパフォーマンスは、数ビュー設定で他の生成メソッドよりも大幅に優れており、初めて、多ビュー設定でシーンごとの最適化メソッドの品質に匹敵する。
関連論文リスト
- 3D Scene Understanding Through Local Random Access Sequence Modeling [12.689247678229382]
単一画像からの3Dシーン理解は、コンピュータビジョンにおいて重要な問題である。
本稿では、LRAS(Local Random Access Sequence)モデリングと呼ばれる自己回帰生成手法を提案する。
光学フローを3次元シーン編集の中間表現として利用することにより、LRASが最先端の新規ビュー合成と3次元オブジェクト操作機能を実現することを示す。
論文 参考訳(メタデータ) (2025-04-04T18:59:41Z) - AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction [69.65671384868344]
拡散モデルに基づく新しい次世代予測パラダイムAR-1-to-3を提案する。
提案手法は,生成したビューと入力ビューとの整合性を大幅に改善し,高忠実度3Dアセットを生成する。
論文 参考訳(メタデータ) (2025-03-17T08:39:10Z) - Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。