論文の概要: InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation
- arxiv url: http://arxiv.org/abs/2511.04675v1
- Date: Thu, 06 Nov 2025 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.580656
- Title: InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation
- Title(参考訳): InfinityStar:ビジュアルジェネレーションのための統合された時空自動回帰モデリング
- Authors: Jinlai Liu, Jian Han, Bin Yan, Hui Wu, Fengda Zhu, Xing Wang, Yi Jiang, Bingyue Peng, Zehuan Yuan,
- Abstract要約: InfinityStarは高解像度画像とダイナミックビデオ合成のための統合時空自動回帰フレームワークである。
我々の知る限り、InfinityStarは産業レベルの720p動画を制作できる最初の離散自己回帰ビデオジェネレータである。
- 参考スコア(独自算出の注目度): 39.324043558250544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce InfinityStar, a unified spacetime autoregressive framework for high-resolution image and dynamic video synthesis. Building on the recent success of autoregressive modeling in both vision and language, our purely discrete approach jointly captures spatial and temporal dependencies within a single architecture. This unified design naturally supports a variety of generation tasks such as text-to-image, text-to-video, image-to-video, and long interactive video synthesis via straightforward temporal autoregression. Extensive experiments demonstrate that InfinityStar scores 83.74 on VBench, outperforming all autoregressive models by large margins, even surpassing some diffusion competitors like HunyuanVideo. Without extra optimizations, our model generates a 5s, 720p video approximately 10x faster than leading diffusion-based methods. To our knowledge, InfinityStar is the first discrete autoregressive video generator capable of producing industrial level 720p videos. We release all code and models to foster further research in efficient, high-quality video generation.
- Abstract(参考訳): InfinityStarは高解像度画像とダイナミックビデオ合成のための統合時空自動回帰フレームワークである。
視覚と言語の両方における自己回帰モデリングの成功に基づいて、我々の純粋に離散的なアプローチは、単一のアーキテクチャ内の空間的および時間的依存関係を共同でキャプチャする。
この統一されたデザインは、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ、画像・トゥ・ビデオ、時間的自己回帰による長時間のインタラクティブなビデオ合成など、様々な世代のタスクを自然にサポートする。
大規模な実験では、InfinityStarがVBenchで83.74点を記録し、HunyuanVideoのような拡散競争相手を抜いても、全ての自己回帰モデルよりも大きなマージンを達成している。
余分な最適化がなければ,従来の拡散法に比べて約10倍の速度で5s、720pの動画を生成することができる。
我々の知る限り、InfinityStarは産業レベルの720p動画を制作できる最初の離散自己回帰ビデオジェネレータである。
我々は、効率的で高品質なビデオ生成のさらなる研究を促進するために、すべてのコードとモデルをリリースする。
関連論文リスト
- SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。