論文の概要: A Survey of Video Datasets for Grounded Event Understanding
- arxiv url: http://arxiv.org/abs/2406.09646v1
- Date: Fri, 14 Jun 2024 00:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:23:26.454427
- Title: A Survey of Video Datasets for Grounded Event Understanding
- Title(参考訳): 接地イベント理解のためのビデオデータセットの検討
- Authors: Kate Sanders, Benjamin Van Durme,
- Abstract要約: マルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り囲まれた常識推論能力を持つ必要があります。
イベント理解機能を必要とする105の動画データセットを調査した。
- 参考スコア(独自算出の注目度): 34.11140286628736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing video benchmarks largely consider specialized downstream tasks like retrieval or question-answering (QA), contemporary multimodal AI systems must be capable of well-rounded common-sense reasoning akin to human visual understanding. A critical component of human temporal-visual perception is our ability to identify and cognitively model "things happening", or events. Historically, video benchmark tasks have implicitly tested for this ability (e.g., video captioning, in which models describe visual events with natural language), but they do not consider video event understanding as a task in itself. Recent work has begun to explore video analogues to textual event extraction but consists of competing task definitions and datasets limited to highly specific event types. Therefore, while there is a rich domain of event-centric video research spanning the past 10+ years, it is unclear how video event understanding should be framed and what resources we have to study it. In this paper, we survey 105 video datasets that require event understanding capability, consider how they contribute to the study of robust event understanding in video, and assess proposed video event extraction tasks in the context of this body of research. We propose suggestions informed by this survey for dataset curation and task framing, with an emphasis on the uniquely temporal nature of video events and ambiguity in visual content.
- Abstract(参考訳): 既存のビデオベンチマークでは、検索や質問回答(QA)といった特定の下流タスクを主に検討しているが、現代のマルチモーダルAIシステムは、人間の視覚的理解に似た、よく取り巻かれた常識推論能力を持つ必要がある。
人間の時間的・視覚的知覚の重要な要素は、「起こること」や出来事を識別し、認知的にモデル化する能力である。
歴史的に、ビデオベンチマークタスクはこの能力について暗黙的にテストされている(例:ビデオキャプション、自然言語を用いた視覚イベントをモデルで記述する)が、ビデオイベント理解自体がタスクであるとは考えていない。
最近の研究は、テキストイベント抽出にビデオの類似を探求し始めているが、競合するタスク定義とデータセットは、非常に特定のイベントタイプに限定されている。
したがって、過去10年以上にわたるイベント中心のビデオ研究の豊富な領域があるが、どのようにビデオイベント理解がフレーム化されるべきなのか、どのようなリソースを研究する必要があるのかは明らかではない。
本稿では、イベント理解能力を必要とする105の動画データセットを調査し、それらがビデオにおける堅牢なイベント理解の研究にどのように貢献するかを考察し、この研究の文脈において提案されたビデオイベント抽出タスクを評価する。
本稿では,ビデオイベントの時間的特質と視覚内容のあいまいさに着目し,データセットのキュレーションとタスクフレーミングについて提案する。
関連論文リスト
- EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [58.08209212057164]
現在のロングフォームビデオ理解のためのデータセットは、真のロングフォーム理解の課題を提供するのに足りていないことが多い。
我々は、CinePileという新しいデータセットとベンチマークを提示する。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Contextual Explainable Video Representation:\\Human Perception-based
Understanding [10.172332586182792]
人間の知覚過程をアクター、オブジェクト、環境のモデリングに組み込むアプローチについて議論する。
ビデオ理解における人間の知覚に基づく文脈表現の有効性を示すために,ビデオ文のキャプションと時間的行動検出を選択する。
論文 参考訳(メタデータ) (2022-12-12T19:29:07Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering [0.0]
ビデオ内のイベント間の"なぜ"を理解することができるフレームワークであるiPerを提案する。
機械翻訳問題としてのiPerceiveとVideoQAの有効性を示す。
我々のアプローチは、視覚的理解の最先端をさらに進める。
論文 参考訳(メタデータ) (2020-11-16T05:44:45Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。