Fugu-MT 論文翻訳(概要): Video-Mirai: Autoregressive Video Diffusion Models Need Foresight

論文の概要: Video-Mirai: Autoregressive Video Diffusion Models Need Foresight

arxiv url: http://arxiv.org/abs/2606.03971v1
Date: Tue, 02 Jun 2026 17:55:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:05.237045
Title: Video-Mirai: Autoregressive Video Diffusion Models Need Foresight
Title（参考訳）: 自動回帰動画拡散モデル「Video-Mirai」
Authors: Yonghao Yu, Lang Huang, Runyi Li, Zerun Wang, Toshihiko Yamasaki,
Abstract要約: 因果ビデオジェネレータは過去から予測する必要があるが、そこからのみ学習する必要はない。しかし、標準的な訓練は、それぞれの因果関係にのみ、現在を説明するよう要求する。我々は、因果推論を変えることなく、このギャップを埋めるトレーニング専用手法であるVideo-Miraiを紹介する。
参考スコア（独自算出の注目度）: 28.342670562904445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Causal video generators must predict from the past, but they need not learn only from it. In streaming autoregressive video diffusion, each emitted segment becomes a commitment that future segments must preserve. Standard training, however, only asks each causal state to explain the present. This creates what we call a representation-level planning gap: states that fit the current segment may discard identity, layout, and motion information needed for a consistent future. We introduce Video-Mirai, a training-only method that closes this gap without changing causal inference: the generator rolls out causally, a frozen foresight encoder reads the completed rollout non-causally, and a lightweight predictor distills the resulting stopped-gradient targets into causal states. Future frames supervise representations, never generator inputs. At inference, the encoder and predictor are discarded, leaving the original architecture, per-step FLOPs, and KV-cache behavior unchanged. Video-Mirai improves a strong Causal-Forcing baseline on 5-second VBench from 83.8 to 84.6 in terms of Total Score. On 30-second rollouts beyond the training horizon, subject consistency improves from 84.9 to 88.5 and background consistency from 90.2 to 91.9. Ablations identify future-conditioned targets as the key ingredient, and probes show that future frames become more decodable from current features. Causality should constrain inference, not representation supervision. Our study highlights that visual autoregressive models need foresight. Project page: https://y0uroy.github.io/Video-Mirai.
Abstract（参考訳）: 因果ビデオジェネレータは過去から予測する必要があるが、そこからのみ学習する必要はない。ストリーミング自動回帰ビデオ拡散では、各出力セグメントは将来のセグメントが保持しなければならないコミットメントとなる。しかし、標準的な訓練は、それぞれの因果関係にのみ、現在を説明するよう要求する。現在のセグメントに適合する状態は、一貫した将来に必要なアイデンティティ、レイアウト、動作情報を破棄する可能性がある。因果推論を変更せずにこのギャップを埋めるトレーニング専用手法である Video-Mirai を導入し,凍結したフォレスト・エンコーダが非因果的なロールアウトを読み出し,軽量な予測器で停止した目標を因果状態に蒸留する。将来のフレームは表現を監督し、ジェネレータ入力を一切行わない。推論時にエンコーダと予測器は破棄され、元のアーキテクチャ、ステップごとのFLOP、KV-cache動作は変わらない。 Video-Miraiは5秒のVBenchで強力なCausal-Forcingベースラインをトータルスコアで83.8から84.6に改善している。トレーニング地平線を超えた30秒のロールアウトでは、被験者の一貫性は84.9から88.5に改善され、背景の一貫性は90.2から91.9に改善された。アブレーションは、将来の条件付きターゲットを鍵要素とみなし、プローブは、将来のフレームが現在の特徴からよりデオード可能になることを示す。因果性は、表現監督ではなく、推論を制約すべきである。我々の研究は、視覚的自己回帰モデルには注意が必要であることを強調している。プロジェクトページ: https://y0uroy.github.io/Video-Mirai

関連論文リスト

Towards Generative Predictive Display for Vision-Based Teleoperation: A Zero-Shot Benchmark of Off-the-Shelf Video Models [0.0]
本稿では,ショートホライズン予測表示のためのオフ・ザ・シェルフ生成ビデオモデルのベンチマークを示す。性能は、予測精度、ロールアウト毎のレイテンシ、ピークGPUメモリ使用量、時間的エラー進化を用いて評価される。発見は、汎用な生成ビデオ合成と遠隔操作における予測表示の要件とのギャップを浮き彫りにする。
論文参考訳（メタデータ） (2026-05-10T17:36:22Z)
Don't Pause! Every prediction matters in a streaming video [55.509551643600794]
一般的なストリーミング知覚とアシスト機能を評価するマルチターンプロアクティブクエリを特徴とするSPOT-Benchを提案する。 SPOT-BenchにはTimeliness-F1が付属している。 i)オフラインモデルは、確実にイベントを検知するが、スパム予測は失敗する; (ii) サイレントをトレーニングした後、スパムを減らし、応答を低下させる; (iii) ストリーミングビデオの半分は応答を期待しない。
論文参考訳（メタデータ） (2026-04-27T11:07:03Z)
MistExit: Learning to Exit for Early Mistake Detection in Procedural Videos [53.5354731425141]
ビデオにおける早期誤り検出の課題について紹介する。本研究の目的は,プロシージャ活動におけるキーステップが,ストリーミング映像を可能な限り少なく観察しながら正しく実行されるかどうかを判断することである。本稿では,誤り検出と強化学習ポリシを組み合わせた手法を提案する。
論文参考訳（メタデータ） (2026-03-15T07:14:49Z)
WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs [37.61875409530676]
WeaveTimeは、シンプルで効率的でモデルに依存しないフレームワークで、まず注文を教え、次に注文を使用する。推論では、パスCurrent Dynamic Focus Cacheは不確実性トリガ、粗い粒度検索を実行し、必要なときにだけ履歴を拡大する。これらの結果はWeaveTimeを、厳格なオンライン時間因果制約の下でビデオ-LLMをストリームする時間意識への実践的なパスとして確立する。
論文参考訳（メタデータ） (2026-02-25T17:45:45Z)
BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models [50.986189632485285]
モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
論文参考訳（メタデータ） (2025-12-12T23:02:02Z)
Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。 NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文参考訳（メタデータ） (2025-05-28T15:13:34Z)
Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild [30.99346916414286]
本稿では,アノテーションのコスト削減のための新しいパラダイムを提案する。不完全な疑似アノテーションの直接事前学習は、不一致の文-ビデオペアや不正確な時間境界など、重大な課題を呈する。本稿では,セマンティックス誘導の洗練とメモリ・コンセンサス補正の2つの相からなるReCorrectアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-01T13:49:21Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文参考訳（メタデータ） (2023-12-11T16:12:43Z)
VAE^2: Preventing Posterior Collapse of Variational Video Predictions in the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。 VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文参考訳（メタデータ） (2021-01-28T15:06:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。