論文の概要: OpenEvents V1: Large-Scale Benchmark Dataset for Multimodal Event Grounding
- arxiv url: http://arxiv.org/abs/2506.18372v1
- Date: Mon, 23 Jun 2025 07:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.899599
- Title: OpenEvents V1: Large-Scale Benchmark Dataset for Multimodal Event Grounding
- Title(参考訳): OpenEvents V1: マルチモーダルイベントグラウンドのための大規模ベンチマークデータセット
- Authors: Hieu Nguyen, Phuc-Tan Nguyen, Thien-Phuc Tran, Minh-Quang Nguyen, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: OpenEvents V1は、イベント中心の視覚言語理解を促進することを目的とした、大規模なベンチマークデータセットである。
データセットには、20万以上のニュース記事と、CNNとThe Guardianからソースされた40万以上の関連画像が含まれている。
- 参考スコア(独自算出の注目度): 15.044907078726803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce OpenEvents V1, a large-scale benchmark dataset aimed at advancing event-centric vision-language understanding. Unlike conventional image captioning and retrieval datasets that emphasize surface-level descriptions, OpenEvents V1 focuses on contextual and temporal grounding through two primary tasks: (1) generating rich, event-aware image captions and (2) retrieving event-relevant images based on narrative-style textual queries. The dataset contains over 200,000 news articles and 400,000 associated images sourced from CNN and The Guardian, spanning diverse domains and time periods. We provide extensive baseline results and standardized evaluation protocols for both tasks. OpenEvents V1 establishes a robust foundation for developing multimodal models capable of deep reasoning over complex real-world events. The dataset is available at https://ltnghia.github.io/eventa/openevents-v1
- Abstract(参考訳): イベント中心の視覚言語理解の促進を目的とした大規模ベンチマークデータセットであるOpenEvents V1を紹介した。
従来の画像キャプションや検索データセットとは違って,OpenEvents V1では,(1)リッチなイベント認識画像キャプションの生成,(2)物語スタイルのテキストクエリに基づくイベント関連画像の検索という2つの主要なタスクを通じて,コンテキストと時間的グラウンドに焦点を当てている。
データセットには、20万以上のニュース記事と、CNNとThe Guardianからソースされた40万以上の関連画像が含まれており、さまざまなドメインと期間にまたがっている。
両タスクに対して,広範なベースライン結果と標準化された評価プロトコルを提供する。
OpenEvents V1は、複雑な現実世界のイベントに対して深い推論が可能なマルチモーダルモデルを開発するための堅牢な基盤を確立する。
データセットはhttps://ltnghia.github.io/eventa/openevents-v1で公開されている。
関連論文リスト
- EventVL: Understand Event Streams via Multimodal Large Language Model [18.57504605615107]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文 参考訳(メタデータ) (2025-01-23T14:37:21Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。
CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文 参考訳(メタデータ) (2024-07-09T07:26:15Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Title2Event: Benchmarking Open Event Extraction with a Large-scale
Chinese Title Dataset [19.634367718707857]
イベントタイプを制限せずにオープンイベント抽出をベンチマークする大規模文レベルデータセットであるTitle2Eventを提示する。
Title2Eventには42,000以上のニュースタイトルがあり、34のトピックが中国のWebページから集められている。
私たちの知る限りでは、これは現在、オープンイベント抽出のための中国最大の手動注釈付きデータセットである。
論文 参考訳(メタデータ) (2022-11-02T04:39:36Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。