論文の概要: EventFormer: A Node-graph Hierarchical Attention Transformer for Action-centric Video Event Prediction
- arxiv url: http://arxiv.org/abs/2510.21786v1
- Date: Sun, 19 Oct 2025 04:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.512584
- Title: EventFormer: A Node-graph Hierarchical Attention Transformer for Action-centric Video Event Prediction
- Title(参考訳): EventFormer:アクション中心のビデオイベント予測のためのノードグラフ階層型アテンショントランス
- Authors: Qile Su, Shoutai Zhu, Shuai Zhang, Baoyu Liang, Chao Tong,
- Abstract要約: AVEP(Action-centric Video Event Prediction)は,既存の映像予測タスクと区別するタスクである。
約3万5千ドルの注釈付きビデオと1万8800ドルのイベントのビデオクリップからなる,大規模な構造化データセットを提示する。
本研究では,ノードグラフの階層的注目に基づくビデオイベント予測モデルであるEventFormerを提案する。
- 参考スコア(独自算出の注目度): 7.250942234168963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Script event induction, which aims to predict the subsequent event based on the context, is a challenging task in NLP, achieving remarkable success in practical applications. However, human events are mostly recorded and presented in the form of videos rather than scripts, yet there is a lack of related research in the realm of vision. To address this problem, we introduce AVEP (Action-centric Video Event Prediction), a task that distinguishes itself from existing video prediction tasks through its incorporation of more complex logic and richer semantic information. We present a large structured dataset, which consists of about $35K$ annotated videos and more than $178K$ video clips of event, built upon existing video event datasets to support this task. The dataset offers more fine-grained annotations, where the atomic unit is represented as a multimodal event argument node, providing better structured representations of video events. Due to the complexity of event structures, traditional visual models that take patches or frames as input are not well-suited for AVEP. We propose EventFormer, a node-graph hierarchical attention based video event prediction model, which can capture both the relationships between events and their arguments and the coreferencial relationships between arguments. We conducted experiments using several SOTA video prediction models as well as LVLMs on AVEP, demonstrating both the complexity of the task and the value of the dataset. Our approach outperforms all these video prediction models. We will release the dataset and code for replicating the experiments and annotations.
- Abstract(参考訳): コンテキストに基づいてその後のイベントを予測することを目的としたScript Event inductionは、NLPでは難しい課題であり、実用的なアプリケーションで顕著な成功を収めている。
しかしながら、人間の出来事はスクリプトではなくビデオとして記録され、提示されることが多いが、視覚領域における関連する研究は乏しい。
AVEP(Action-centric Video Event Prediction)は,より複雑な論理とよりリッチなセマンティック情報を組み込んだタスクである。
このタスクをサポートするために,既存のビデオイベントデータセット上に構築された,約35K$のアノテーション付きビデオと178K$以上のイベントクリップで構成された,大規模な構造化データセットを提示する。
データセットはよりきめ細かいアノテーションを提供し、アトミックユニットはマルチモーダルなイベント引数ノードとして表現され、ビデオイベントのより優れた構造化された表現を提供する。
イベント構造の複雑さのため、パッチやフレームを入力として扱う従来のビジュアルモデルは、AVVPには適していない。
本研究では,ノードグラフの階層的注目に基づくビデオイベント予測モデルであるEventFormerを提案する。
我々は、複数のSOTAビデオ予測モデルおよびAVVP上のLVLMを用いて実験を行い、タスクの複雑さとデータセットの価値の両方を実証した。
我々のアプローチは、これらのビデオ予測モデルよりも優れています。
実験とアノテーションを複製するためのデータセットとコードをリリースします。
関連論文リスト
- Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding [49.51013055630857]
オンラインビデオ時間グラウンド(OnVTG)の課題に取り組み、ビデオストリーム内で所定のテキストクエリに関連するイベントを特定する必要がある。
通常のビデオ時間グラウンドとは異なり、OnVTGは将来のフレームを観察することなく予測を行うモデルを必要とする。
イベントレベルの情報を様々な期間でモデル化するイベント提案に基づいて予測を行うイベントベースOnVTGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T15:33:49Z) - VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos [6.442765801124304]
本稿では,これらのスクリプトをビデオから抽出し,予測する映像イベント理解タスクを提案する。
このタスクをサポートするために,23,000以上の良好なラベル付きイベントを含む大規模データセットであるVidEventを紹介した。
データセットは、厳密なアノテーションプロセスを通じて作成され、高品質で信頼性の高いイベントデータを保証する。
論文 参考訳(メタデータ) (2025-06-03T05:12:48Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。