FuguReport

Stream-T1: Test-Time Scaling for Streaming Video Generation

著者 Yijing Tu, Shaojin Wu, Mengqi Huang, Wenchuan Wang, Yuxin Wang, Chunxiao Liu, Zhendong Mao
所属 Independent Researcher / University of Science and Technology of China / FrameX.AI
カテゴリ Method / Model Scaling / Test-time scaling framework for streaming video, Evaluation / Benchmarking / Comprehensive video benchmark evaluation, Application / Video Generation / Streaming video synthesis
ライセンス CC BY-SA 4.0

Abstractの概要

Stream-T1は、ストリーミング動画生成に特化したテスト時スケーリングフレームワークであり、チャンクレベルの自己回帰合成が少数のデノイジングステップのみで行われるため、フルビデオ拡散生成よりも推論時探索との計算的互換性が高いという観察に基づいている。本手法は3つの構成要素を組み合わせている:球面補間により以前の成功したノイズ軌跡から各チャンクを初期化するStream-Scaled Noise Propagation、画像報酬スコアと動画報酬スコアの動的重み付き融合によりフレームレベルの品質と長距離時間的一貫性のバランスをとるStream-Scaled Reward Pruning、そして報酬に基づくセマンティック境界検出に基づいてエビクトされたKVキャッシュエントリを異なる更新経路(Discard、EMA-Sink、Append-Sink)にルーティングするStream-Scaled Memory Sinkingである。実験は5秒(VBench 946プロンプト)および30秒(MovieGen 128プロンプト)ベンチマークにおいて、LongLive(Wan2.1-T2V-1.3Bベース)をベースモデルとして実施され、VBench/VBench-longおよびVideoAlignで評価された。これらの設定全体で、Stream-T1はCausVid、Self-forcing、LongLive、および標準的なテスト時スケーリングベースラインと比較して、被写体・背景一貫性、動き滑らかさ、美的品質、人間整合品質指標の改善を報告している。

新規性

本論文の主な新規性は、テスト時スケーリングをフルビデオ拡散ではなくストリーミング(チャンクレベル自己回帰)動画生成を中心に再構成し、少数ステップのデノイジングと逐次構造を活用して探索コストを削減し、推論時にきめ細かい時間的制御を可能にした点にある。また、高品質な前チャンクからの球面補間によるノイズ初期化、動的重み付けされた短期・長期報酬の組み合わせによる候補剪定、そして長コンテキスト生成のための3つの異なるKVキャッシュルーティング経路を持つ報酬誘導型適応メモリ管理を統合的に最適化する3部構成のフレームワークを導入している。

成果

5秒動画において、Stream-T1は8指標中6指標で最高スコアを達成し、被写体一貫性97.25(LongLiveの97.00に対して)、背景一貫性97.05(96.78に対して)、動き滑らかさ99.15(99.12に対して)、美的品質65.98(65.28に対して)、MQ 0.629(0.350に対して)、TA 1.305(1.193に対して)を報告している。30秒動画では、比較手法の中で最も強い総合性能を報告し、被写体一貫性98.43、背景一貫性97.18、動き滑らかさ99.03を含み、LongLive上に構築されたBest-of-NおよびBeam Search変種を全指標で上回っている。アブレーションにより、3つの提案モジュールがそれぞれ異なる貢献をしていることが示された:Memory Sinkingは長期一貫性に、Noise Propagationは全体的安定性に、Reward Pruningはセマンティック整合性と美的品質に寄与している。

論文の注目点

  1. Stream-T1はテスト時にストリーミング動画生成を対象とし、チャンク単位の生成で少数のデノイジングステップ(例:チャンクあたり4ステップ)を活用することで、フルビデオ拡散アプローチよりも探索ベースのスケーリングを計算的に実用的にしている。
  2. 本フレームワークは3つの協調メカニズムを統合している:高品質な前チャンクからの球面補間によるノイズ伝播、動的重み融合と閾値制約を持つ長短報酬ベースの候補剪定、およびセマンティック境界検出に基づいてエビクトされたKVキャッシュエントリをDiscard・EMA-Sink・Append-Sink経路にルーティングする適応メモリシンキング。
  3. 5秒(VBench、946プロンプト)および30秒(MovieGen、128プロンプト)ベンチマークでの実験結果は、CausVid、Self-forcing、LongLive、および標準的なBest-of-N/Beam Searchベースラインに対して、特に時間的一貫性と動き品質指標において一貫した改善を示している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。