論文の概要: Event-Enriched Image Analysis Grand Challenge at ACM Multimedia 2025
- arxiv url: http://arxiv.org/abs/2508.18904v1
- Date: Tue, 26 Aug 2025 10:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.801594
- Title: Event-Enriched Image Analysis Grand Challenge at ACM Multimedia 2025
- Title(参考訳): ACMマルチメディア2025におけるイベント強化画像解析のグランドチャレンジ
- Authors: Thien-Phuc Tran, Minh-Quang Nguyen, Minh-Triet Tran, Tam V. Nguyen, Trong-Le Do, Duy-Nam Ly, Viet-Tham Huynh, Khanh-Duy Le, Mai-Khiem Tran, Trung-Nghia Le,
- Abstract要約: ACM Multimedia 2025で開催されているEvent-Enriched Image Analysis (EVENTA) Grand Challengeでは、イベントレベルのマルチモーダル理解のための最初の大規模ベンチマークが導入されている。
6カ国から45チームが参加し、公開テストとプライベートテストのフェーズを通じて評価が行われた。
上位3チームはACM Multimedia 2025でソリューションをプレゼンテーションするために招待された。
- 参考スコア(独自算出の注目度): 18.745445868541122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Event-Enriched Image Analysis (EVENTA) Grand Challenge, hosted at ACM Multimedia 2025, introduces the first large-scale benchmark for event-level multimodal understanding. Traditional captioning and retrieval tasks largely focus on surface-level recognition of people, objects, and scenes, often overlooking the contextual and semantic dimensions that define real-world events. EVENTA addresses this gap by integrating contextual, temporal, and semantic information to capture the who, when, where, what, and why behind an image. Built upon the OpenEvents V1 dataset, the challenge features two tracks: Event-Enriched Image Retrieval and Captioning, and Event-Based Image Retrieval. A total of 45 teams from six countries participated, with evaluation conducted through Public and Private Test phases to ensure fairness and reproducibility. The top three teams were invited to present their solutions at ACM Multimedia 2025. EVENTA establishes a foundation for context-aware, narrative-driven multimedia AI, with applications in journalism, media analysis, cultural archiving, and accessibility. Further details about the challenge are available at the official homepage: https://ltnghia.github.io/eventa/eventa-2025.
- Abstract(参考訳): ACM Multimedia 2025で開催されているEvent-Enriched Image Analysis (EVENTA) Grand Challengeでは、イベントレベルのマルチモーダル理解のための最初の大規模ベンチマークが導入されている。
伝統的なキャプションと検索タスクは主に人、オブジェクト、シーンの表面レベルの認識に焦点を当てており、しばしば現実世界の出来事を定義する文脈的・意味的な次元を見下ろしている。
EVENTAはこのギャップに対処するため、コンテキスト情報、時間情報、意味情報を統合して、誰が、いつ、どこで、何、なぜ、画像の背後にあるのかをキャプチャする。
OpenEvents V1データセットに基づいて構築されたこの課題には、Event-Enriched Image RetrievalとCaptioning、Event-based Image Retrievalの2つのトラックがある。
6カ国から合計45チームが参加し、公正さと再現性を確保するために、パブリックテストとプライベートテストのフェーズを通じて評価が行われた。
上位3チームはACM Multimedia 2025でソリューションをプレゼンテーションするために招待された。
EVENTAは、ジャーナリズム、メディア分析、文化的アーカイビング、アクセシビリティに応用された、文脈認識、物語駆動型マルチメディアAIの基盤を確立する。
この課題に関する詳細は、公式ホームページで確認できる。
関連論文リスト
- SIS-Challenge: Event-based Spatio-temporal Instance Segmentation Challenge at the CVPR 2025 Event-based Vision Workshop [35.087783646406955]
本稿では,CVPR 2025イベントベースビジョンワークショップと連携して,S-temporal Instance (SIS) の課題の概要を紹介する。
タスクの概要、課題の詳細、結果を提供する。
論文 参考訳(メタデータ) (2025-08-18T10:49:06Z) - OpenEvents V1: Large-Scale Benchmark Dataset for Multimodal Event Grounding [17.27920117276754]
OpenEvents V1は、イベント中心の視覚言語理解を促進するために設計されたベンチマークデータセットである。
データセットは、20万以上のニュース記事と、CNNとThe Guardianからソースされた40万以上の関連画像で構成されている。
論文 参考訳(メタデータ) (2025-06-23T07:57:38Z) - NTIRE 2025 Challenge on Event-Based Image Deblurring: Methods and Results [162.7095344078484]
NTIRE 2025 : First Challenge on Event-based Image Deblurringについて概説する。
この課題の第一の目的は、高品質な画像の劣化を実現するイベントベースの手法を設計することである。
我々は、この課題がイベントベースの視覚研究のさらなる進歩を後押しすることを期待している。
論文 参考訳(メタデータ) (2025-04-16T18:06:16Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding [52.67839570524888]
オープンワールドイベントベースの理解のための効果的なフレームワークであるCEIAを提示する。
リッチなイベントイメージデータセットを活用して、CLIPの画像空間と整合したイベント埋め込みスペースを学習します。
CEIAには2つの異なる利点がある。第一に、大規模なイベントテキストデータセットの不足を補うために、既存のイベントイメージデータセットを最大限に活用することができる。
論文 参考訳(メタデータ) (2024-07-09T07:26:15Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。