論文の概要: Streaming Detection of Queried Event Start
- arxiv url: http://arxiv.org/abs/2412.03567v1
- Date: Wed, 04 Dec 2024 18:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:48.599355
- Title: Streaming Detection of Queried Event Start
- Title(参考訳): クェリイベントスタートのストリーミング検出
- Authors: Cristobal Eyzaguirre, Eric Tang, Shyamal Buch, Adrien Gaidon, Jiajun Wu, Juan Carlos Niebles,
- Abstract要約: マルチモーダルビデオ理解ストリーミング検出のための新しいタスクを提案する。
SDQESの目標は、自然言語クエリによって記述された複雑なイベントの開始点を、高い精度と低レイテンシで識別することである。
Ego4Dデータセットに基づく新しいベンチマークと、多様なイベントのストリーミングマルチモーダル検出を研究するためのタスク固有のメトリクスを導入する。
- 参考スコア(独自算出の注目度): 41.500121314019864
- License:
- Abstract: Robotics, autonomous driving, augmented reality, and many embodied computer vision applications must quickly react to user-defined events unfolding in real time. We address this setting by proposing a novel task for multimodal video understanding-Streaming Detection of Queried Event Start (SDQES). The goal of SDQES is to identify the beginning of a complex event as described by a natural language query, with high accuracy and low latency. We introduce a new benchmark based on the Ego4D dataset, as well as new task-specific metrics to study streaming multimodal detection of diverse events in an egocentric video setting. Inspired by parameter-efficient fine-tuning methods in NLP and for video tasks, we propose adapter-based baselines that enable image-to-video transfer learning, allowing for efficient online video modeling. We evaluate three vision-language backbones and three adapter architectures on both short-clip and untrimmed video settings.
- Abstract(参考訳): ロボット、自律運転、拡張現実、そして多くの具体化されたコンピュータビジョンアプリケーションは、リアルタイムで展開されるユーザー定義イベントに迅速に反応しなければならない。
本稿では,マルチモーダルビデオ理解ストリーミング検出(SDQES)のための新しいタスクを提案することで,この問題に対処する。
SDQESの目標は、自然言語クエリによって記述された複雑なイベントの開始点を、高い精度と低レイテンシで識別することである。
我々は、Ego4Dデータセットに基づく新しいベンチマークと、エゴセントリックなビデオ設定における多様なイベントのストリーミングマルチモーダル検出を研究するためのタスク固有のメトリクスを導入する。
NLPにおけるパラメータ効率のよい微調整法やビデオタスクに着想を得て,画像間移動学習が可能なアダプタベースのベースラインを提案し,効率的なオンラインビデオモデリングを実現する。
3つの視覚言語バックボーンと3つのアダプタアーキテクチャを、ショートクリップとアントリミングの両方のビデオ設定で評価する。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - Localizing Events in Videos with Multimodal Queries [61.20556229245365]
セマンティッククエリに基づくビデオ内のイベントのローカライズは、ビデオ理解における重要なタスクである。
マルチモーダルクエリでビデオ中のイベントをローカライズするための新しいベンチマークであるICQを紹介する。
疑似MQs戦略における3つのマルチモーダルクエリ適応法と新しいサロゲートファインタニングを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the
Edge for the Internet of Multimedia Things [3.222802562733787]
VID-WINは、エッジクラウドパラダイムでビデオイベント分析を加速するための適応型2段階アライメントウィンドウリングアプローチです。
VID-WINは、ビデオコンテンツと入力ノブを利用して、ノード間のビデオ推論プロセスを加速する。
論文 参考訳(メタデータ) (2021-04-27T10:08:40Z) - HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文 参考訳(メタデータ) (2021-04-20T04:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。