Fugu-MT 論文翻訳(概要): Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities

論文の概要: Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities

arxiv url: http://arxiv.org/abs/2206.07207v3
Date: Wed, 20 Dec 2023 03:22:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 19:35:58.048187
Title: Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities
Title（参考訳）: beyond grounding: モダリティを越えてきめ細かいイベント階層を抽出する
Authors: Hammad A. Ayyubi, Christopher Thomas, Lovish Chum, Rahul Lokesh, Long Chen, Yulei Niu, Xudong Lin, Xuande Feng, Jaywon Koo, Sounak Ray and Shih-Fu Chang
Abstract要約: マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。これはイベントの構造を明らかにし、それらを理解するのに不可欠である。我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
参考スコア（独自算出の注目度）: 43.048896440009784
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Events describe happenings in our world that are of importance. Naturally, understanding events mentioned in multimedia content and how they are related forms an important way of comprehending our world. Existing literature can infer if events across textual and visual (video) domains are identical (via grounding) and thus, on the same semantic level. However, grounding fails to capture the intricate cross-event relations that exist due to the same events being referred to on many semantic levels. For example, in Figure 1, the abstract event of "war" manifests at a lower semantic level through subevents "tanks firing" (in video) and airplane "shot" (in text), leading to a hierarchical, multimodal relationship between the events. In this paper, we propose the task of extracting event hierarchies from multimodal (video and text) data to capture how the same event manifests itself in different modalities at different semantic levels. This reveals the structure of events and is critical to understanding them. To support research on this task, we introduce the Multimodal Hierarchical Events (MultiHiEve) dataset. Unlike prior video-language datasets, MultiHiEve is composed of news video-article pairs, which makes it rich in event hierarchies. We densely annotate a part of the dataset to construct the test benchmark. We show the limitations of state-of-the-art unimodal and multimodal baselines on this task. Further, we address these limitations via a new weakly supervised model, leveraging only unannotated video-article pairs from MultiHiEve. We perform a thorough evaluation of our proposed method which demonstrates improved performance on this task and highlight opportunities for future research.
Abstract（参考訳）: イベントは、重要な世界における出来事を記述します。当然、マルチメディアコンテンツで言及されている出来事とそれらの関連性を理解することは、世界を理解する重要な方法となっている。既存の文献は、テキストとビジュアル(ビデオ)ドメイン間のイベントが(グラウンド化によって)同一であるかどうかを推測することができる。しかし、接地は、多くの意味レベルで言及されるのと同じ出来事のために存在する複雑な相互関係を捉えることに失敗する。例えば、図1では、「戦争」の抽象的な出来事は、サブイベントの「タンクス」と飛行機の「ショット」(テキスト)を通して下位の意味レベルで現れ、これらの出来事の間に階層的でマルチモーダルな関係をもたらす。本稿では,複数モーダル(ビデオとテキスト)データからイベント階層を抽出し,同じイベントが異なる意味レベルで異なるモダリティでどのように現れるかを把握するタスクを提案する。これはイベントの構造を明らかにし、それらを理解する上で重要である。このタスクの研究を支援するために,マルチモーダル階層イベント(MultiHiEve)データセットを紹介する。従来のビデオ言語データセットとは異なり、MultiHiEveはニュースビデオとアーティクルのペアで構成されており、イベント階層に富んでいる。テストベンチマークを構築するためにデータセットの一部に密に注釈を付けます。本稿では,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。さらに,MultiHiEve の未注釈ビデオ列ペアのみを利用する弱教師付きモデルにより,これらの制限に対処する。提案手法の徹底的な評価を行い,本課題における性能向上と今後の研究の機会を明らかにする。

関連論文リスト

RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction [8.874574211900562]
本稿では,マルチメディアイベント抽出のための多タスクプログレッシブラーニングフレームワークを提案する。 RMPLは、一様イベント抽出からの異種監視と、ステージワイドトレーニングによるマルチメディア関係抽出を取り入れている。複数のVLMを用いたM2E2ベンチマークの実験では、異なるモード設定で一貫した改善が見られた。
論文参考訳（メタデータ） (2026-02-14T12:43:25Z)
ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization [14.920403124245867]
マルチステージ・セマンティック・ガイダンスとマルチイベント・リレーション・モデリングを導入する。これにより、音声・視覚イベントの階層的セマンティック理解と、イベント依存の適応的抽出が可能になる。提案手法は,パラメータや計算負荷を大幅に削減しつつ,最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-07-14T05:42:00Z)
EventVL: Understand Event Streams via Multimodal Large Language Model [18.57504605615107]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文参考訳（メタデータ） (2025-01-23T14:37:21Z)
Enhancing Event Extraction from Short Stories through Contextualized Prompts [2.7670701972493568]
本稿では,実際の出来事に注釈を付けた1000編の短編集集「textttVrittanta-EN」について述べる。我々の目的は、短い物語の文脈における出来事の複雑な考えを明らかにすることである。本報告では,テクスタイスに分類したイベント参照とそのカテゴリのアノテートに関する新しいガイドラインについて述べる。
論文参考訳（メタデータ） (2024-12-14T08:28:52Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文参考訳（メタデータ） (2024-09-14T08:30:59Z)
SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文参考訳（メタデータ） (2023-11-21T18:43:07Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文参考訳（メタデータ） (2022-10-11T08:15:57Z)
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文参考訳（メタデータ） (2022-07-18T14:18:13Z)
Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。まず,自己教師型マルチモーダルイベントコアモデルを提案する。第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文参考訳（メタデータ） (2021-09-27T03:22:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。