論文の概要: One Identity, Many Roles: Multimodal Entity Coreference for Enhanced Video Situation Recognition
- arxiv url: http://arxiv.org/abs/2604.23173v1
- Date: Sat, 25 Apr 2026 06:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.192079
- Title: One Identity, Many Roles: Multimodal Entity Coreference for Enhanced Video Situation Recognition
- Title(参考訳): 一つのアイデンティティと多くの役割: 強化された映像状況認識のためのマルチモーダルエンティティ・コンファレンス
- Authors: Balaji Darur, Amanmeet Garg, Makarand Tapaswi,
- Abstract要約: ビデオインシデント認識(VidSitu)は、ビデオで「誰に何をし、どのように、どこでどこで何をしたか」という難しい問題に対処する。
複数のイベントにまたがって、健全なアクションと関連するイベントロールに関する短い記述を識別することで、ビデオの理解を徹底的にテストする。
本稿では,ビデオのグラウンド化とともにテキスト中の記述を統一するために,Multimodal Entity Coreference (MEC)を提案する。
- 参考スコア(独自算出の注目度): 17.329901171579973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Situation Recognition (VidSitu) addresses the challenging problem of "who did what to whom, with what, how, and where" in a video. It tests thorough video understanding by requiring identification of salient actions and associated short descriptions for event roles across multiple events. Grounding with VidSitu requires spatio-temporal localization of key entities across shots and varied appearances. We posit that coherent video understanding requires consistent identification of entities that play different roles. We propose Multimodal Entity Coreference (MEC) to unite entity descriptions in text with grounding across the video. Towards this, we introduce CineMEC, a multi-stage approach that unites event role mention groups with visual clusters of entities, without explicit grounding supervision during training. Our approach is designed to exploit the synergy between visual grounding and captioning, where improving one influences the other and vice versa. For evaluation, we extend the VidSitu dataset with grounding annotations. While previous work focuses primarily on descriptions, CineMEC improves consistency across both: captioning (+2.5% CIDEr, +7% LEA) and visual grounding (+18% HOTA).
- Abstract(参考訳): ビデオインシデント認識(VidSitu)は、ビデオの中で「誰に何を、どのように、どこで、どこで、誰に何をしたか」という難しい問題に対処する。
複数のイベントにまたがって、健全なアクションと関連するイベントロールの短い説明の特定を要求することで、ビデオの理解を徹底的にテストする。
VidSituとの接地には、ショット間のキーエンティティの時空間的ローカライゼーションと様々な外観が必要である。
我々は、コヒーレントなビデオ理解には、異なる役割を演じるエンティティの一貫した識別が必要であると仮定する。
本稿では,ビデオのグラウンド化とともにエンティティ記述をテキストで統一するマルチモーダルエンティティ・コア(MEC)を提案する。
そこで本研究では,イベントロール参照グループとエンティティの視覚的クラスタを一体化するマルチステージアプローチであるCineMECを紹介する。
我々のアプローチは、視覚的接地とキャプションの相乗効果を利用して、一方の改善が他方に影響を及ぼし、他方の逆も引き起こすように設計されている。
評価のために、グラウンドアノテーションでVidSituデータセットを拡張します。
以前の研究は主に記述に焦点を当てていたが、CineMECはキャプション(+2.5% CIDEr、+7% LEA)と視覚的グラウンド(+18% HOTA)の両方の一貫性を改善した。
関連論文リスト
- VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。
そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。
VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-24T06:57:26Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Grounded Video Situation Recognition [37.279915290069326]
本稿では,3段階のトランスフォーマーモデルであるVideoWhispererについて紹介する。
我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測します。
論文 参考訳(メタデータ) (2022-10-19T18:38:10Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。