論文の概要: Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA
- arxiv url: http://arxiv.org/abs/2009.08043v2
- Date: Mon, 14 Dec 2020 11:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 09:11:20.572513
- Title: Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA
- Title(参考訳): マルチチョイスビデオQAのための自己教師付き事前学習とコントラスト表現学習
- Authors: Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang, Nojun Kwak
- Abstract要約: Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 39.78914328623504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (Video QA) requires fine-grained understanding of
both video and language modalities to answer the given questions. In this
paper, we propose novel training schemes for multiple-choice video question
answering with a self-supervised pre-training stage and a supervised
contrastive learning in the main stage as an auxiliary learning. In the
self-supervised pre-training stage, we transform the original problem format of
predicting the correct answer into the one that predicts the relevant question
to provide a model with broader contextual inputs without any further dataset
or annotation. For contrastive learning in the main stage, we add a masking
noise to the input corresponding to the ground-truth answer, and consider the
original input of the ground-truth answer as a positive sample, while treating
the rest as negative samples. By mapping the positive sample closer to the
masked input, we show that the model performance is improved. We further employ
locally aligned attention to focus more effectively on the video frames that
are particularly relevant to the given corresponding subtitle sentences. We
evaluate our proposed model on highly competitive benchmark datasets related to
multiple-choice video QA: TVQA, TVQA+, and DramaQA. Experimental results show
that our model achieves state-of-the-art performance on all datasets. We also
validate our approaches through further analyses.
- Abstract(参考訳): Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
自己指導型事前学習の段階では、正しい回答を予測し、関連する質問を予測し、さらなるデータセットやアノテーションを使わずにより広い文脈で入力されたモデルを提供する。
主段における対照的な学習には, 接地真実応答に対応する入力にマスキングノイズを加え, 接地真実応答の本来の入力を正のサンプルとして考慮し, 残りを負のサンプルとして扱う。
マスク入力に近い正のサンプルをマッピングすることにより,モデル性能が向上したことを示す。
さらに,特定の字幕文に特に関連のある映像フレームに対して,より効果的に焦点を合わせるため,局所的に調整された注意を活用した。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
実験結果から,本モデルが全データセットの最先端性能を実現することが示された。
さらなる分析を通じて、我々のアプローチを検証する。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。