論文の概要: VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos
- arxiv url: http://arxiv.org/abs/2506.02448v1
- Date: Tue, 03 Jun 2025 05:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.389573
- Title: VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos
- Title(参考訳): VidEvent: ビデオ内のイベントの動的進化を理解するための大規模なデータセット
- Authors: Baoyu Liang, Qile Su, Shoutai Zhu, Yuchen Liang, Chao Tong,
- Abstract要約: 本稿では,これらのスクリプトをビデオから抽出し,予測する映像イベント理解タスクを提案する。
このタスクをサポートするために,23,000以上の良好なラベル付きイベントを含む大規模データセットであるVidEventを紹介した。
データセットは、厳密なアノテーションプロセスを通じて作成され、高品質で信頼性の高いイベントデータを保証する。
- 参考スコア(独自算出の注目度): 6.442765801124304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the significant impact of visual events on human cognition, understanding events in videos remains a challenging task for AI due to their complex structures, semantic hierarchies, and dynamic evolution. To address this, we propose the task of video event understanding that extracts event scripts and makes predictions with these scripts from videos. To support this task, we introduce VidEvent, a large-scale dataset containing over 23,000 well-labeled events, featuring detailed event structures, broad hierarchies, and logical relations extracted from movie recap videos. The dataset was created through a meticulous annotation process, ensuring high-quality and reliable event data. We also provide comprehensive baseline models offering detailed descriptions of their architecture and performance metrics. These models serve as benchmarks for future research, facilitating comparisons and improvements. Our analysis of VidEvent and the baseline models highlights the dataset's potential to advance video event understanding and encourages the exploration of innovative algorithms and models. The dataset and related resources are publicly available at www.videvent.top.
- Abstract(参考訳): 視覚的なイベントが人間の認知に与える影響は大きいが、ビデオ内のイベントを理解することは、複雑な構造、セマンティック階層、動的進化のために、AIにとって難しい課題である。
そこで本稿では,イベントスクリプトを抽出し,これらのスクリプトをビデオから予測する映像イベント理解タスクを提案する。
このタスクを支援するために、VidEventを紹介した。VidEventは、23,000以上の良好なラベル付きイベントを含む大規模なデータセットで、詳細なイベント構造、広範な階層、および映画のリキャップビデオから抽出された論理的関係を特徴としている。
データセットは、厳密なアノテーションプロセスを通じて作成され、高品質で信頼性の高いイベントデータを保証する。
また、アーキテクチャとパフォーマンスメトリクスの詳細な説明を提供する包括的なベースラインモデルも提供します。
これらのモデルは将来の研究のベンチマークとして機能し、比較と改善を促進する。
VidEventとベースラインモデルの分析は、ビデオイベント理解を前進させるデータセットの可能性を強調し、革新的なアルゴリズムとモデルの探索を促進する。
データセットと関連するリソースはwww.videvent.topで公開されている。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - A Survey of Video Datasets for Grounded Event Understanding [34.11140286628736]
マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
論文 参考訳(メタデータ) (2024-06-14T00:36:55Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。