論文の概要: Localizing Events in Videos with Multimodal Queries
- arxiv url: http://arxiv.org/abs/2406.10079v1
- Date: Fri, 14 Jun 2024 14:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:16:10.381098
- Title: Localizing Events in Videos with Multimodal Queries
- Title(参考訳): マルチモーダルクエリによるビデオ内のイベントのローカライズ
- Authors: Gengyuan Zhang, Mang Ling Ada Fok, Yan Xia, Yansong Tang, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu,
- Abstract要約: マルチモーダルクエリによるビデオ内のイベントのローカライズのための新しいベンチマークICQを導入する。
4種類の参照イメージと5種類のリファインメントテキストが含まれており、異なるドメインにわたるモデルパフォーマンスを探索することができます。
- 参考スコア(独自算出の注目度): 71.40602125623668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding is a pivotal task in the digital era, yet the dynamic and multievent nature of videos makes them labor-intensive and computationally demanding to process. Thus, localizing a specific event given a semantic query has gained importance in both user-oriented applications like video search and academic research into video foundation models. A significant limitation in current research is that semantic queries are typically in natural language that depicts the semantics of the target event. This setting overlooks the potential for multimodal semantic queries composed of images and texts. To address this gap, we introduce a new benchmark, ICQ, for localizing events in videos with multimodal queries, along with a new evaluation dataset ICQ-Highlight. Our new benchmark aims to evaluate how well models can localize an event given a multimodal semantic query that consists of a reference image, which depicts the event, and a refinement text to adjust the images' semantics. To systematically benchmark model performance, we include 4 styles of reference images and 5 types of refinement texts, allowing us to explore model performance across different domains. We propose 3 adaptation methods that tailor existing models to our new setting and evaluate 10 SOTA models, ranging from specialized to large-scale foundation models. We believe this benchmark is an initial step toward investigating multimodal queries in video event localization.
- Abstract(参考訳): ビデオ理解はデジタル時代において重要な課題であるが、ビデオのダイナミックで多面的な性質は、労働集約的で、処理を計算的に要求する。
このように、セマンティッククエリが与えられた特定のイベントのローカライズは、ビデオ検索のようなユーザ指向アプリケーションと、ビデオ基盤モデルに関する学術研究の両方において重要である。
現在の研究における重要な制限は、セマンティッククエリが典型的には、対象イベントのセマンティックスを記述する自然言語にあることである。
この設定は、画像とテキストからなるマルチモーダルなセマンティッククエリの可能性を見落としている。
このギャップに対処するため、マルチモーダルクエリによるビデオ内のイベントのローカライズのための新しいベンチマークICQと、新しい評価データセットICQ-Highlightを導入する。
我々の新しいベンチマークは、参照画像からなるマルチモーダルなセマンティッククエリと、画像のセマンティクスを調整するための洗練されたテキストを与えられたイベントを、モデルがいかにうまくローカライズできるかを評価することを目的としている。
モデル性能を体系的にベンチマークするために、参照画像の4つのスタイルと5つのタイプの改善テキストを含む。
我々は,既存のモデルを新しい設定に適合させる3つの適応法を提案し,特殊モデルから大規模基礎モデルまで10のSOTAモデルを評価した。
このベンチマークは、ビデオイベントのローカライゼーションにおいて、マルチモーダルクエリを調査するための最初のステップであると考えています。
関連論文リスト
- Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。
LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。
追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-12T12:39:07Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。