論文の概要: Video-CoE: Reinforcing Video Event Prediction via Chain of Events
- arxiv url: http://arxiv.org/abs/2603.14935v1
- Date: Mon, 16 Mar 2026 07:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.136
- Title: Video-CoE: Reinforcing Video Event Prediction via Chain of Events
- Title(参考訳): Video-CoE: イベントの連鎖によるビデオイベント予測の強化
- Authors: Qile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu,
- Abstract要約: VEPは、ビデオのきめ細かい時間的モデリングを実行し、ビデオと将来のイベントの間の論理的関係を確立する必要がある。
textbfChain textbfEvents (textbfCoE)パラダイム。
コードとモデルも間もなくリリースされる予定だ。
- 参考スコア(独自算出の注目度): 20.58429395226725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in the application of MLLMs for various video tasks, video event prediction (VEP) remains relatively underexplored. VEP requires the model to perform fine-grained temporal modeling of videos and establish logical relationships between videos and future events, which current MLLMs still struggle with. In this work, we first present a comprehensive evaluation of current leading MLLMs on the VEP task, revealing the reasons behind their inaccurate predictions, including lack of logical reasoning ability for future events prediction and insufficient utilization of visual information. To address these challenges, we propose \textbf{C}hain \textbf{o}f \textbf{E}vents (\textbf{CoE}) paradigm, which constructs temporal event chains to implicitly enforce MLLM focusing on the visual content and the logical connections between videos and future events, incentivizing model's reasoning capability with multiple training protocols. Experimental results on public benchmarks demonstrate that our method outperforms both leading open-source and commercial MLLMs, establishing a new state-of-the-art on the VEP task. Codes and models will be released soon.
- Abstract(参考訳): MLLMの様々なビデオタスクへの応用の進展にもかかわらず、ビデオイベント予測(VEP)はいまだに未熟である。
VEPは、ビデオのきめ細かい時間的モデリングを実行し、ビデオと将来のイベントの間の論理的関係を確立する必要がある。
本稿では,VEPタスクにおける現在のMLLMの総合評価を行い,今後の事象予測における論理的推論能力の欠如や視覚情報の利用不足など,その不正確な予測の背景にある理由を明らかにする。
これらの課題に対処するために,時間的イベントチェーンを構築し,ビデオと将来のイベント間の論理的関連性に着目したMLLMを暗黙的に実施し,モデルの推論能力を複数のトレーニングプロトコルでインセンティブ化する,‘textbf{C}hain \textbf{o}f \textbf{E}vents(\textbf{CoE})パラダイムを提案する。
評価実験の結果,提案手法はオープンソースのMLLMと商用MLLMのどちらよりも優れており,VEPタスクにおける新たな最先端技術を確立していることがわかった。
コードとモデルも間もなくリリースされる予定だ。
関連論文リスト
- Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO [20.96275248557104]
Video-Next-Event Prediction (VNEP)は、テキスト内の次のイベントを予測するために動的なビデオ応答を必要とする。
VNEPのためのビデオ拡散モデル(VDM)とビジョンランゲージモデル(VLM)を一致させるために、強化学習を利用するモデルVANSを導入する。
VANSのコアとなるのは、VLMとVDMを編成してユニットとして機能するジョイント・GRPOである。
手続き的および予測的ベンチマークの実験は、VANSがビデオイベント予測と可視化の両方で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-11-20T18:59:44Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding [49.51013055630857]
オンラインビデオ時間グラウンド(OnVTG)の課題に取り組み、ビデオストリーム内で所定のテキストクエリに関連するイベントを特定する必要がある。
通常のビデオ時間グラウンドとは異なり、OnVTGは将来のフレームを観察することなく予測を行うモデルを必要とする。
イベントレベルの情報を様々な期間でモデル化するイベント提案に基づいて予測を行うイベントベースOnVTGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:33:49Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - Fostering Video Reasoning via Next-Event Prediction [61.70045315542766]
我々は,将来的なビデオセグメントを,時間的推論を促進するためのリッチで自己指導的な信号として活用する学習タスクとして,次世代予測(NEP)を提案する。
このタスクを支援するために,V1-33Kという,多様な実世界のシナリオにまたがる33,000のビデオセグメントを自動抽出したデータセットをキュレートする。
NEPはMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-28T15:13:34Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Temporal Insight Enhancement: Mitigating Temporal Hallucination in
Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文 参考訳(メタデータ) (2024-01-18T10:18:48Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。