論文の概要: Mounting Video Metadata on Transformer-based Language Model for
Open-ended Video Question Answering
- arxiv url: http://arxiv.org/abs/2108.05158v1
- Date: Wed, 11 Aug 2021 11:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:41:01.164955
- Title: Mounting Video Metadata on Transformer-based Language Model for
Open-ended Video Question Answering
- Title(参考訳): オープンエンドビデオ質問応答のためのトランスフォーマティブ言語モデルにビデオメタデータを付加する
- Authors: Donggeon Lee, Seongho Choi, Youwon Jang, Byoung-Tak Zhang
- Abstract要約: 我々は、既存の複数選択ビデオ質問応答に挑戦し、それをオープンエンドビデオ質問応答に変更する。
オープンエンドな質問応答に対処するために、事前訓練されたGPT2モデルを用いる。
既存のDramaQAデータセットをオープンな質問応答に変更することにより、アブレーションスタディを行い、ビデオメタデータを使用してパフォーマンスを向上させることができることを示す。
- 参考スコア(独自算出の注目度): 18.664991529995664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering has recently received a lot of attention from
multimodal video researchers. Most video question answering datasets are
usually in the form of multiple-choice. But, the model for the multiple-choice
task does not infer the answer. Rather it compares the answer candidates for
picking the correct answer. Furthermore, it makes it difficult to extend to
other tasks. In this paper, we challenge the existing multiple-choice video
question answering by changing it to open-ended video question answering. To
tackle open-ended question answering, we use the pretrained GPT2 model. The
model is fine-tuned with video inputs and subtitles. An ablation study is
performed by changing the existing DramaQA dataset to an open-ended question
answering, and it shows that performance can be improved using video metadata.
- Abstract(参考訳): ビデオ質問応答は、最近マルチモーダルビデオ研究者から多くの注目を集めている。
ほとんどのビデオ質問応答データセットは、通常マルチチョイス形式である。
しかし、マルチ選択タスクのモデルは、その答えを推測しない。
むしろ、正しい答えを選択するための答え候補を比較する。
さらに、他のタスクに拡張することが難しくなります。
本稿では,既存のマルチチョイスビデオ質問応答に対して,オープンエンドビデオ質問応答に変更することで挑戦する。
オープンエンドな質問応答に対処するために、事前訓練されたGPT2モデルを用いる。
モデルはビデオ入力と字幕で微調整されている。
既存の dramaqaデータセットをオープンエンドの質問応答に変更してアブレーション研究を行い、ビデオメタデータを用いて性能を向上させることができることを示す。
関連論文リスト
- Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。