論文の概要: STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
- arxiv url: http://arxiv.org/abs/2511.20462v2
- Date: Wed, 26 Nov 2025 03:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.523929
- Title: STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
- Title(参考訳): STARFlow-V:正規化フローを用いたエンドツーエンドビデオ生成モデリング
- Authors: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai,
- Abstract要約: STARFlow-Vは、エンドツーエンドの学習、堅牢な因果予測、ネイティブな推定などの大きな利点を持つ、フローベースのビデオジェネレータの正規化である。
結果は,NFが高品質な自己回帰ビデオ生成が可能なことを示す最初の証拠となる。
- 参考スコア(独自算出の注目度): 35.05757953878183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
- Abstract(参考訳): 正規化フロー(NF)は、連続データに対するエンドツーエンドの確率に基づく生成モデルであり、画像生成の進歩を奨励して近年注目を集めている。
しかし、時空間の複雑さと計算コストが著しく高いビデオ生成領域では、最先端のシステムは拡散モデルにのみ依存する。
本稿では, エンドツーエンド学習, 頑健な因果予測, ネイティブ推定などの重要な利点を生かした, フローベースビデオジェネレータSTARFlow-Vを提案することによって, この設計空間を再考する。
STARFlow-Vは、最近提案されたSTARFlowに基づいて、グローバルローカルなアーキテクチャで時空間ラテント空間で動作し、グローバルなラテント空間への因果依存性を制限し、リッチなローカルなフレーム内インタラクションを保存する。
これは、標準自己回帰拡散モデル生成の共通の落とし穴である時間とともにエラーの蓄積を容易にする。
さらに,このモデルに軽量な因果分解器を装備し,自動回帰方式で映像生成の一貫性を向上させるフロースコアマッチングを提案する。
サンプリング効率を向上させるため、STARFlow-Vでは、因果関係を壊さずに、内部更新を並列化可能なイテレーションとして再キャストする、ビデオ対応のJacobiイテレーションスキームを採用している。
可逆構造のおかげで、同じモデルはテキスト・トゥ・ビデオ、画像・トゥ・ビデオ、ビデオ・トゥ・ビデオ生成タスクをネイティブにサポートすることができる。
実験的に,STARFlow-Vは拡散ベースラインに対する実際のサンプリングスループットと強い視覚的忠実度と時間的整合性を実現する。
これらの結果は,NFが高品質な自己回帰ビデオ生成能力を持つことを示す最初の証拠であり,世界モデル構築のための有望な研究方向として確立されている。
コードと生成されたサンプルはhttps://github.com/apple/ml-starflow.comで入手できる。
関連論文リスト
- ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View [11.346049532150127]
textbfARSSは、カメラの軌跡に条件付けされた単一の画像から新しいビューを生成するフレームワークである。
本手法は,拡散モデルに基づく最先端のビュー合成手法に比較可能か,あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2025-09-27T00:03:09Z) - Taming generative video models for zero-shot optical flow extraction [28.176290134216995]
将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。
対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。
KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
論文 参考訳(メタデータ) (2025-07-11T23:59:38Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis [44.2114053357308]
本稿では,高分解能画像合成において高い性能を実現する正規化フローに基づくスケーラブルな生成モデルを提案する。
STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-06-06T17:58:39Z) - Temporal Regularization Makes Your Video Generator Stronger [34.33572297364156]
時間的品質は、フレーム間の一貫した動きと現実的なダイナミクスを保証するため、ビデオ生成の重要な側面である。
本稿では,ビデオ生成における時間的拡張を初めて導入し,FluxFlowを初回調査に導入する。
UCF-101とVBenchベンチマークの実験により、FluxFlowは様々なビデオ生成モデルにおける時間的コヒーレンスと多様性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-19T16:59:32Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - Jet: A Modern Transformer-Based Normalizing Flow [62.2573739835562]
本稿では,結合型正規化フローモデルの設計を再考する。
よりシンプルなアーキテクチャで、最先端の定量的、質的なパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-12-19T18:09:42Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。