論文の概要: EventVL: Understand Event Streams via Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2501.13707v1
- Date: Thu, 23 Jan 2025 14:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:13.957701
- Title: EventVL: Understand Event Streams via Multimodal Large Language Model
- Title(参考訳): EventVL: マルチモーダル大規模言語モデルによるイベントストリームの理解
- Authors: Pengteng Li, Yunfan Lu, Pinghao Song, Wuyang Li, Huizai Yao, Hui Xiong,
- Abstract要約: 明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
- 参考スコア(独自算出の注目度): 18.57504605615107
- License:
- Abstract: The event-based Vision-Language Model (VLM) recently has made good progress for practical vision tasks. However, most of these works just utilize CLIP for focusing on traditional perception tasks, which obstruct model understanding explicitly the sufficient semantics and context from event streams. To address the deficiency, we propose EventVL, the first generative event-based MLLM (Multimodal Large Language Model) framework for explicit semantic understanding. Specifically, to bridge the data gap for connecting different modalities semantics, we first annotate a large event-image/video-text dataset, containing almost 1.4 million high-quality pairs of data, which enables effective learning across various scenes, e.g., drive scene or human motion. After that, we design Event Spatiotemporal Representation to fully explore the comprehensive information by diversely aggregating and segmenting the event stream. To further promote a compact semantic space, Dynamic Semantic Alignment is introduced to improve and complete sparse semantic spaces of events. Extensive experiments show that our EventVL can significantly surpass existing MLLM baselines in event captioning and scene description generation tasks. We hope our research could contribute to the development of the event vision community.
- Abstract(参考訳): イベントベースのVLM(Vision-Language Model)は,近年,現実的なビジョンタスクにおいて大きな進歩を遂げている。
しかし、これらの作業の多くは、従来の知覚タスクに集中するためにCLIPを利用するだけであり、これは、イベントストリームから十分なセマンティクスとコンテキストを明確に理解することを妨げる。
この欠陥に対処するため,最初の生成イベントベースMLLM(Multimodal Large Language Model)フレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためのデータギャップをブリッジするために、まず、約1.4万の高品質なデータを含む大規模なイベントイメージ/ビデオテキストデータセットに注釈を付けます。
その後、イベントストリームの多様な集約とセグメンテーションによって包括的情報を完全に探索するイベント時空間表現を設計する。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
本研究では,イベントキャプションやシーン記述生成タスクにおいて,イベントVLが既存のMLLMベースラインを大幅に超えることを示す。
私たちの研究がイベントビジョンコミュニティの発展に貢献できることを願っています。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Enhancing Long Video Understanding via Hierarchical Event-Based Memory [9.800516656566774]
本稿では,長いビデオの理解を深めるため,階層型イベントベースメモリ拡張LDM(HEM-LLM)を提案する。
まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。
第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。
論文 参考訳(メタデータ) (2024-09-10T07:53:10Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。