Fugu-MT 論文翻訳(概要): MINOTAUR: Multi-task Video Grounding From Multimodal Queries

論文の概要: MINOTAUR: Multi-task Video Grounding From Multimodal Queries

arxiv url: http://arxiv.org/abs/2302.08063v1
Date: Thu, 16 Feb 2023 04:00:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-17 15:00:56.834516
Title: MINOTAUR: Multi-task Video Grounding From Multimodal Queries
Title（参考訳）: MINOTAUR:マルチモーダルなクェリからマルチタスクのビデオグラウンド
Authors: Raghav Goyal, Effrosyni Mavroudi, Xitong Yang, Sainbayar Sukhbaatar, Leonid Sigal, Matt Feiszli, Lorenzo Torresani, Du Tran
Abstract要約: 長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
参考スコア（独自算出の注目度）: 70.08973664126873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video understanding tasks take many forms, from action detection to visual query localization and spatio-temporal grounding of sentences. These tasks differ in the type of inputs (only video, or video-query pair where query is an image region or sentence) and outputs (temporal segments or spatio-temporal tubes). However, at their core they require the same fundamental understanding of the video, i.e., the actors and objects in it, their actions and interactions. So far these tasks have been tackled in isolation with individual, highly specialized architectures, which do not exploit the interplay between tasks. In contrast, in this paper, we present a single, unified model for tackling query-based video understanding in long-form videos. In particular, our model can address all three tasks of the Ego4D Episodic Memory benchmark which entail queries of three different forms: given an egocentric video and a visual, textual or activity query, the goal is to determine when and where the answer can be seen within the video. Our model design is inspired by recent query-based approaches to spatio-temporal grounding, and contains modality-specific query encoders and task-specific sliding window inference that allow multi-task training with diverse input modalities and different structured outputs. We exhaustively analyze relationships among the tasks and illustrate that cross-task learning leads to improved performance on each individual task, as well as the ability to generalize to unseen tasks, such as zero-shot spatial localization of language queries.
Abstract（参考訳）: 映像理解タスクは、行動検出から視覚的クエリのローカライゼーション、文の時空間的接地に至るまで、様々な形態をとる。これらのタスクは、入力の種類(クエリが画像領域または文であるビデオまたはビデオクエリペアのみ)と出力(時間セグメントまたは時空間チューブ)によって異なる。しかし、彼らのコアでは、ビデオの基本的な理解、すなわちアクターとオブジェクト、アクションとインタラクションが同じである必要がある。これまでのところ、これらのタスクは個々の高度に専門化されたアーキテクチャと分離して取り組まれており、タスク間の相互作用を活用していない。一方,本稿では,長文ビデオにおける問合せに基づくビデオ理解に一貫した一貫したモデルを提案する。特に,Ego4D Episodic Memoryベンチマークの3つのタスクに対処し,エゴセントリックなビデオと視覚的,テキスト的,活動的なクエリが与えられた場合,その答がビデオ内でいつ,どこで見られるかを決定することが目的である。我々のモデル設計は、近年の時空間グラウンド化に対するクエリベースのアプローチに着想を得ており、モーダリティ固有のクエリエンコーダとタスク固有のスライディングウィンドウ推論を含んでおり、多様な入力モードと異なる構造化出力を持つマルチタスクトレーニングを可能にしている。タスク間の関係を徹底的に分析し,クロスタスク学習が個々のタスクのパフォーマンス向上につながること,言語クエリのゼロショット空間的ローカライゼーションなど,未認識のタスクに一般化する能力を示す。

関連論文リスト

V$^2$Dial: Unification of Video and Visual Dialog via Multimodal Experts [44.33388344586592]
V$2$Dialは、マルチモーダルな会話タスクのための画像とビデオの入力データを同時に扱うための、エキスパートベースの新しいモデルである。本稿では,画像とビデオの空間的特徴と時間的特徴を共同で学習する単一モデルを用いて,両方のタスクを統合することを提案する。
論文参考訳（メタデータ） (2025-03-03T21:27:38Z)
Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文参考訳（メタデータ） (2024-09-27T06:37:47Z)
Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos [35.974750867072345]
本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。時間的エビデンスを伴う複数ホップ質問応答ペアを生成するための自動パイプラインを開発する。次に,大規模言語モデル (GeLM) を用いたグラウンディング散乱証拠 (Gunding Scattered Evidence with Large Language Model) と呼ばれる新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-08-26T17:58:47Z)
UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文参考訳（メタデータ） (2024-04-04T03:28:57Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文参考訳（メタデータ） (2022-11-24T09:42:46Z)
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。マルチタスクである視覚言語ジョイントモデルを事前訓練する。その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文参考訳（メタデータ） (2022-05-02T14:53:13Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-28T12:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。