Fugu-MT 論文翻訳(概要): CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

論文の概要: CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

arxiv url: http://arxiv.org/abs/2603.04291v1
Date: Wed, 04 Mar 2026 17:06:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.416923
Title: CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
Title（参考訳）: CubeComposer: パースペクティブビデオからの時空間自己回帰4K 360°ビデオ生成
Authors: Lingen Li, Guangzhi Wang, Xiaoyu Li, Zhaoyang Zhang, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan,
Abstract要約: 4K解像度の360ビデオを生成する新しい立方体時間自己回帰拡散モデルを提案する。ビデオを6つの顔で立方体マップ表現に分解することで、CubeComposerは、適切に計画された順序で自動的にコンテンツを合成する。ベンチマークデータセットの実験では、CubeComposerがネイティブの解像度と視覚的品質で最先端のメソッドより優れていることが示されている。
参考スコア（独自算出の注目度）: 86.80231588752957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting $\leq$ 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer
Abstract（参考訳）: 視点入力から高画質の360度パノラマビデオを生成することは、仮想現実(VR)にとって重要な応用の1つであり、高解像度ビデオは没入感のある体験に特に重要である。既存の手法は、バニラ拡散モデルの計算的制限によって制約され、$\leq$ 1Kのネイティブ生成のみをサポートし、解像度を高めるために超解像の最適部分に依存する。 4K解像度の360度動画をネイティブに生成する新しい時空間自己回帰拡散モデルであるCubeComposerを紹介する。ビデオを6つの顔で立方体マップ表現に分解することで、CubeComposerは、適切に計画された時空間順序でコンテンツを自動回帰的に合成し、高解像度の出力を可能にしながら、メモリ要求を減らす。具体的には, 多次元自己回帰の課題に対処するため, 1) 立方体面と時間窓にまたがる360度映像を協調合成するための時空間的自己回帰戦略,(2) 疎コンテキストアテンション設計による効率向上のための立方体面管理機構,(3) 立方体認識位置符号化,パディング,ブレンドといった連続性認識技術を用いて境界線を除去する手法を提案する。ベンチマークデータセットに関する大規模な実験では、CubeComposerがネイティブの解像度と視覚的品質で最先端のメソッドより優れており、実用的なVRアプリケーションシナリオをサポートすることが示されている。プロジェクトページ: https://lg-li.github.io/project/cubecomposer

関連論文リスト

Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering [15.79758281898629]
生成モデルは、非常にリアルなクリップを生成することができるが、計算的に非効率であり、ほんの数秒間、数分のGPU時間を必要とすることが多い。本稿では,静的シーンのカメラコンディショニング映像生成のための新しい戦略について検討する。提案手法は, 幾何整合性を確保しつつ, 数百フレームにわたる生成コストを補正する。
論文参考訳（メタデータ） (2026-01-14T18:50:06Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。 Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文参考訳（メタデータ） (2025-04-14T10:14:44Z)
CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。我々は多視点拡散モデルを用いて立方体の6つの面を合成する。本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文参考訳（メタデータ） (2025-01-28T18:59:49Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文参考訳（メタデータ） (2024-10-08T12:10:37Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。