Fugu-MT 論文翻訳(概要): StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

論文の概要: StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

arxiv url: http://arxiv.org/abs/2501.05763v1
Date: Fri, 10 Jan 2025 07:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.164537
Title: StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
Title（参考訳）: StarGen: スケーラブルで制御可能なシーン生成のためのビデオ拡散モデルを備えた時空間自己回帰フレームワーク
Authors: Shangjin Zhai, Zhichao Ye, Jialin Liu, Weijian Xie, Jiaqi Hu, Zhen Peng, Hua Xue, Danpeng Chen, Xiaomeng Wang, Lei Yang, Nan Wang, Haomin Liu, Guofeng Zhang,
Abstract要約: 本稿では,遠距離シーン生成のための自己回帰的手法で,事前学習した映像拡散モデルを用いたフレームワークであるStarGenを提案する。各ビデオクリップの生成は、隣接する画像の3Dワープと、予め生成されたクリップから時間的に重なる画像とに条件付けされ、正確なポーズ制御による長距離シーン生成の一貫性が向上する。
参考スコア（独自算出の注目度）: 12.016502857454228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large reconstruction and generative models have significantly improved scene reconstruction and novel view generation. However, due to compute limitations, each inference with these large models is confined to a small area, making long-range consistent scene generation challenging. To address this, we propose StarGen, a novel framework that employs a pre-trained video diffusion model in an autoregressive manner for long-range scene generation. The generation of each video clip is conditioned on the 3D warping of spatially adjacent images and the temporally overlapping image from previously generated clips, improving spatiotemporal consistency in long-range scene generation with precise pose control. The spatiotemporal condition is compatible with various input conditions, facilitating diverse tasks, including sparse view interpolation, perpetual view generation, and layout-conditioned city generation. Quantitative and qualitative evaluations demonstrate StarGen's superior scalability, fidelity, and pose accuracy compared to state-of-the-art methods.
Abstract（参考訳）: 大規模な復元・生成モデルの最近の進歩は、シーンの再構築と新しいビュー生成を著しく改善している。しかし、計算限界のため、これらの大きなモデルによる各推論は小さな領域に限られており、長距離一貫したシーン生成が困難である。そこで本研究では,遠距離シーン生成のための自己回帰的手法で,事前学習した映像拡散モデルを用いた新しいフレームワークであるStarGenを提案する。各ビデオクリップの生成は、空間隣接画像の3Dワープと、予め生成されたクリップからの時間重なり画像とに条件付けされ、正確なポーズ制御による長距離シーン生成における時空間一貫性が向上する。時空間条件は様々な入力条件と互換性があり、スパースビュー補間、永続ビュー生成、レイアウト条件付き都市生成など様々なタスクを容易に行うことができる。定量的かつ定性的な評価は、StarGenの優れたスケーラビリティ、忠実さ、そして、最先端の手法と比較して正確さを示す。

関連論文リスト

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文参考訳（メタデータ） (2026-02-24T08:41:40Z)
Plenoptic Video Generation [80.3116444692858]
PlenopticDreamerは、同期時間記憶を維持するために生成幻覚を同期するフレームワークである。中心となる考え方は、マルチインアウトのビデオ条件付きモデルを自己回帰的にトレーニングすることだ。トレーニングでは,コンバージェンス向上のためのコンテキストスケーリング,エラー蓄積による幻覚への自己条件付け,拡張ビデオ生成をサポートする長時間ビデオコンディショニング機構が組み込まれている。
論文参考訳（メタデータ） (2026-01-08T18:58:32Z)
iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation [60.66986667921744]
iMontageは、強力なビデオモデルをオールインワンイメージジェネレータに再利用するために設計された統一されたフレームワークである。本稿では,データキュレーションプロセスとトレーニングパラダイムを補完するエレガントで最小限の適応戦略を提案する。このアプローチにより、モデルは、その貴重な元の動きを損なうことなく、広い画像操作能力を得ることができる。
論文参考訳（メタデータ） (2025-11-25T18:54:16Z)
Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization [14.673302810271219]
幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
論文参考訳（メタデータ） (2025-07-20T06:59:42Z)
GenFusion: Closing the Loop between Reconstruction and Generation via Videos [24.195304481751602]
本稿では,再現性のあるRGB-Dレンダリングにおける映像フレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。また、生成モデルからトレーニングセットへの復元フレームを反復的に追加する循環核融合パイプラインを提案する。
論文参考訳（メタデータ） (2025-03-27T07:16:24Z)
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling [20.329392012132885]
本稿では,映像生成モデルを利用した実世界シーンのリアルな3Dガウススティング(3DGS)を生成するためのテキスト・ツー・3DモデルであるVideoRFSplatを提案する。 VideoRFSplatは、スコア蒸留サンプリングによるポストホック精製に大きく依存する既存のテキスト・ツー・3Dダイレクト・ジェネレーション法より優れている。
論文参考訳（メタデータ） (2025-03-20T05:26:09Z)
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion [61.929653153389964]
そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。我々の手法は、視覚的品質と一貫性を維持しつつ、複数の都市ブロックにまたがる、はるかに長い範囲のカメラ軌道にスケールすることができる。
論文参考訳（メタデータ） (2024-07-18T17:56:30Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文参考訳（メタデータ） (2024-06-04T17:13:10Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文参考訳（メタデータ） (2024-02-27T11:40:50Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
DiffDreamer: Towards Consistent Unsupervised Single-view Scene Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文参考訳（メタデータ） (2022-11-22T10:06:29Z)
GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。 GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2022-07-27T19:10:32Z)
Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文参考訳（メタデータ） (2020-12-17T18:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。