論文の概要: Video Question Answering with Iterative Video-Text Co-Tokenization
- arxiv url: http://arxiv.org/abs/2208.00934v1
- Date: Mon, 1 Aug 2022 15:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:04:40.025308
- Title: Video Question Answering with Iterative Video-Text Co-Tokenization
- Title(参考訳): 反復的ビデオテキストコトケライゼーションによるビデオ質問応答
- Authors: AJ Piergiovanni and Kairo Morton and Weicheng Kuo and Michael S. Ryoo
and Anelia Angelova
- Abstract要約: 本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
- 参考スコア(独自算出の注目度): 77.66445727743508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering is a challenging task that requires understanding
jointly the language input, the visual information in individual video frames,
as well as the temporal information about the events occurring in the video. In
this paper, we propose a novel multi-stream video encoder for video question
answering that uses multiple video inputs and a new video-text iterative
co-tokenization approach to answer a variety of questions related to videos. We
experimentally evaluate the model on several datasets, such as MSRVTT-QA,
MSVD-QA, IVQA, outperforming the previous state-of-the-art by large margins.
Simultaneously, our model reduces the required GFLOPs from 150-360 to only 67,
producing a highly efficient video question answering model.
- Abstract(参考訳): ビデオ質問応答は、言語入力、個々のビデオフレーム内の視覚情報、およびビデオで発生した出来事に関する時間情報とを共同で理解する必要がある、困難なタスクである。
本稿では,複数の映像入力を用いたビデオ質問応答用マルチストリームビデオエンコーダと,ビデオに関するさまざまな質問に答える新たなビデオテキスト反復共分岐手法を提案する。
我々は,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットを用いて実験を行い,過去の最先端を大きなマージンで比較した。
同時に,本モデルでは,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを生成する。
関連論文リスト
- Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。