論文の概要: MINOTAUR: Multi-task Video Grounding From Multimodal Queries
- arxiv url: http://arxiv.org/abs/2302.08063v1
- Date: Thu, 16 Feb 2023 04:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:00:56.834516
- Title: MINOTAUR: Multi-task Video Grounding From Multimodal Queries
- Title(参考訳): MINOTAUR:マルチモーダルなクェリからマルチタスクのビデオグラウンド
- Authors: Raghav Goyal, Effrosyni Mavroudi, Xitong Yang, Sainbayar Sukhbaatar,
Leonid Sigal, Matt Feiszli, Lorenzo Torresani, Du Tran
- Abstract要約: 長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
- 参考スコア(独自算出の注目度): 70.08973664126873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding tasks take many forms, from action detection to visual
query localization and spatio-temporal grounding of sentences. These tasks
differ in the type of inputs (only video, or video-query pair where query is an
image region or sentence) and outputs (temporal segments or spatio-temporal
tubes). However, at their core they require the same fundamental understanding
of the video, i.e., the actors and objects in it, their actions and
interactions. So far these tasks have been tackled in isolation with
individual, highly specialized architectures, which do not exploit the
interplay between tasks. In contrast, in this paper, we present a single,
unified model for tackling query-based video understanding in long-form videos.
In particular, our model can address all three tasks of the Ego4D Episodic
Memory benchmark which entail queries of three different forms: given an
egocentric video and a visual, textual or activity query, the goal is to
determine when and where the answer can be seen within the video. Our model
design is inspired by recent query-based approaches to spatio-temporal
grounding, and contains modality-specific query encoders and task-specific
sliding window inference that allow multi-task training with diverse input
modalities and different structured outputs. We exhaustively analyze
relationships among the tasks and illustrate that cross-task learning leads to
improved performance on each individual task, as well as the ability to
generalize to unseen tasks, such as zero-shot spatial localization of language
queries.
- Abstract(参考訳): 映像理解タスクは、行動検出から視覚的クエリのローカライゼーション、文の時空間的接地に至るまで、様々な形態をとる。
これらのタスクは、入力の種類(クエリが画像領域または文であるビデオまたはビデオクエリペアのみ)と出力(時間セグメントまたは時空間チューブ)によって異なる。
しかし、彼らのコアでは、ビデオの基本的な理解、すなわちアクターとオブジェクト、アクションとインタラクションが同じである必要がある。
これまでのところ、これらのタスクは個々の高度に専門化されたアーキテクチャと分離して取り組まれており、タスク間の相互作用を活用していない。
一方,本稿では,長文ビデオにおける問合せに基づくビデオ理解に一貫した一貫したモデルを提案する。
特に,Ego4D Episodic Memoryベンチマークの3つのタスクに対処し,エゴセントリックなビデオと視覚的,テキスト的,活動的なクエリが与えられた場合,その答がビデオ内でいつ,どこで見られるかを決定することが目的である。
我々のモデル設計は、近年の時空間グラウンド化に対するクエリベースのアプローチに着想を得ており、モーダリティ固有のクエリエンコーダとタスク固有のスライディングウィンドウ推論を含んでおり、多様な入力モードと異なる構造化出力を持つマルチタスクトレーニングを可能にしている。
タスク間の関係を徹底的に分析し,クロスタスク学習が個々のタスクのパフォーマンス向上につながること,言語クエリのゼロショット空間的ローカライゼーションなど,未認識のタスクに一般化する能力を示す。
関連論文リスト
- Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video
Understanding in Novel Domains [5.390814126989423]
本研究では,(1)ステップ認識と(2)宇宙遊泳記録のデータセット上での映像内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
現状の手法が我々のベンチマークでは不十分であることが分かり、一般化可能な手続き型ビデオ理解モデルの目標がはるかに外れていることが証明された。
論文 参考訳(メタデータ) (2023-11-30T18:19:23Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。