論文の概要: What Happens Next? Next Scene Prediction with a Unified Video Model
- arxiv url: http://arxiv.org/abs/2512.13015v1
- Date: Mon, 15 Dec 2025 06:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.555288
- Title: What Happens Next? Next Scene Prediction with a Unified Video Model
- Title(参考訳): 次に何が起こるのか? 統一されたビデオモデルによる次のシーン予測
- Authors: Xinjie Li, Zhimin Chen, Rui Zhao, Florian Schiffers, Zhenyu Liao, Vimal Bhat,
- Abstract要約: 我々は、統合ビデオモデルを時間的・因果的推論に向ける新しいタスクであるNext Scene Prediction (NSP)を導入する。
本稿では,Qwen-VLとLTXを組み合わせた統合フレームワークを提案する。
我々のモデルは我々のベンチマークで最先端のパフォーマンスを達成し、次に何が起こるかを予測する汎用マルチモーダルシステムの能力を向上させる。
- 参考スコア(独自算出の注目度): 12.124208260923062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified models for joint understanding and generation have significantly advanced visual generation capabilities. However, their focus on conventional tasks like text-to-video generation has left the temporal reasoning potential of unified models largely underexplored. To address this gap, we introduce Next Scene Prediction (NSP), a new task that pushes unified video models toward temporal and causal reasoning. Unlike text-to-video generation, NSP requires predicting plausible futures from preceding context, demanding deeper understanding and reasoning. To tackle this task, we propose a unified framework combining Qwen-VL for comprehension and LTX for synthesis, bridged by a latent query embedding and a connector module. This model is trained in three stages on our newly curated, large-scale NSP dataset: text-to-video pre-training, supervised fine-tuning, and reinforcement learning (via GRPO) with our proposed causal consistency reward. Experiments demonstrate our model achieves state-of-the-art performance on our benchmark, advancing the capability of generalist multimodal systems to anticipate what happens next.
- Abstract(参考訳): 最近の共同理解と生成のための統合モデルでは、視覚生成能力が大幅に進歩している。
しかし、テキスト・ビデオ生成のような従来のタスクに重点を置いているため、統一モデルの時間的推論の可能性はほとんど探索されていない。
このギャップに対処するために、統合ビデオモデルを時間的・因果的推論に向かわせる新しいタスクであるNext Scene Prediction (NSP)を導入する。
テキスト・ツー・ビデオ生成とは異なり、NSPは事前のコンテキストから妥当な未来を予測し、より深い理解と推論を要求する。
この課題に対処するために,Qwen-VLとLTXを組み合わせた統合フレームワークを提案する。
提案した因果一貫性報酬を用いて,テキスト・ツー・ビデオ・プレトレーニング,教師付き微調整,強化学習(GRPO)の3段階でトレーニングを行った。
実験により、我々のモデルは、我々のベンチマークで最先端のパフォーマンスを実証し、汎用マルチモーダルシステムの能力を向上し、次に何が起こるかを予測する。
関連論文リスト
- Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO [20.96275248557104]
Video-Next-Event Prediction (VNEP)は、テキスト内の次のイベントを予測するために動的なビデオ応答を必要とする。
VNEPのためのビデオ拡散モデル(VDM)とビジョンランゲージモデル(VLM)を一致させるために、強化学習を利用するモデルVANSを導入する。
VANSのコアとなるのは、VLMとVDMを編成してユニットとして機能するジョイント・GRPOである。
手続き的および予測的ベンチマークの実験は、VANSがビデオイベント予測と可視化の両方で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-11-20T18:59:44Z) - Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment [29.18869359348712]
私たちはDVidE(Defeasible Video Entailment)を紹介します。
DVidEでは、ビデオ前提とテキスト仮説が考慮され、新しい更新が仮説を強化または弱めるかどうかをモデルが判断しなければならない。
生成タスクにおいて、ASR出力とLLM(Large Language Model)を組み合わせ、一貫性のある文脈に関連のある更新を生成するフレームワークを開発する。
論文 参考訳(メタデータ) (2025-06-27T16:51:15Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。