論文の概要: Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
- arxiv url: http://arxiv.org/abs/2511.16669v1
- Date: Thu, 20 Nov 2025 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.81352
- Title: Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
- Title(参考訳): Video-as-Answer:ジョイントGRPOによる次のビデオイベントの予測と生成
- Authors: Junhao Cheng, Liang Hou, Xin Tao, Jing Liao,
- Abstract要約: Video-Next-Event Prediction (VNEP)は、テキスト内の次のイベントを予測するために動的なビデオ応答を必要とする。
VNEPのためのビデオ拡散モデル(VDM)とビジョンランゲージモデル(VLM)を一致させるために、強化学習を利用するモデルVANSを導入する。
VANSのコアとなるのは、VLMとVDMを編成してユニットとして機能するジョイント・GRPOである。
手続き的および予測的ベンチマークの実験は、VANSがビデオイベント予測と可視化の両方で最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 20.96275248557104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video's inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは言語モデルが影響を受けているが、ビデオ生成はエンターテイメントに限られている。
ビデオの本質的な能力によって、言語だけでは伝達が難しい物理世界情報(例えば、テキストだけでネクタイを結ぶよう誰かに教えるなど)を実証するために、次世代予測(NEP)の新しい回答モダリティとしてビデオを拡張する未利用の機会を特定し、VNEP(Video-Next-Event Prediction)として形式化した。
確立されたNEPタスクは、次のイベントをテキストで予測するために、手続き的または予測的な質問を入力としてビデオを取るが、VNEPは動的なビデオ応答を必要とする。
アンロックの指示から、より直感的でカスタマイズされた回答へのシフトは、手続き的な学習と創造的な探索だ。
しかし、マルチモーダル入力、命令条件付き推論、視覚的・意味的整合性のあるビデオ生成の理解を必要とするため、既存のモデルでは依然としてこのタスクは困難である。
VANSは、強化学習を利用して視覚言語モデル(VLM)とVNEPのためのビデオ拡散モデル(VDM)を整合させるモデルである。
VANSのコアとなるのは、VLMとVDMを編成してユニットとして機能するジョイント・GRPOである。
それぞれの出力に対して共有された報酬によって駆動され、VLMを最適化して、正確なキャプションと、視覚的にも親しみやすいキャプションを生成し、VDMを誘導して、これらのキャプションと入力された視覚的コンテキストに忠実なビデオを生成する。
この学習を可能にするために、VNEPタスク専用のデータセットであるVANS-Data-100Kを開発した。
手続き的および予測的ベンチマークの実験は、VANSがビデオイベント予測と可視化の両方で最先端のパフォーマンスを達成することを示す。
コードはhttps://github.com/KlingTeam/VANS.comで公開されている。
関連論文リスト
- UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models [12.21686773633269]
広範なコーパスで訓練された大規模言語モデルは、単一の生成フレームワーク内で多様な言語タスクを統一することに成功した。
このようなモデリングには、モダリティやソースをまたいだタスク固有の事前トレーニングが必要です。
タスク固有の変更なしに様々な視覚タスクを処理するために,ビデオ拡散変換器を微調整するフレームワークであるUniVidを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:43:40Z) - EVE: Towards End-to-End Video Subtitle Extraction with Vision-Language Models [27.726733116479668]
本稿では,視覚エンコーダ,アダプタモジュール,大規模言語モデルという3つのモジュールからなる,EVEと呼ばれるエンドツーエンドビデオ字幕抽出手法を提案する。
視覚エンコーダから視覚トークンを効果的に圧縮するために,2つのモダリティをインターリーブする新しいアダプタInterleavedVTを提案する。
ビデオ字幕抽出タスクをベンチマークするために,2.5Mビデオを含む大規模なデータセットViSaを提案する。
論文 参考訳(メタデータ) (2025-03-06T03:19:56Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。