論文の概要: Contrastive Video Question Answering via Video Graph Transformer
- arxiv url: http://arxiv.org/abs/2302.13668v1
- Date: Mon, 27 Feb 2023 11:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:56:02.773767
- Title: Contrastive Video Question Answering via Video Graph Transformer
- Title(参考訳): ビデオグラフ変換器によるコントラスト映像質問応答
- Authors: Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng
Yan and Tat-Seng Chua
- Abstract要約: 本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 184.3679515511028
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose to perform video question answering (VideoQA) in a Contrastive
manner via a Video Graph Transformer model (CoVGT). CoVGT's uniqueness and
superiority are three-fold: 1) It proposes a dynamic graph transformer module
which encodes video by explicitly capturing the visual objects, their relations
and dynamics, for complex spatio-temporal reasoning. 2) It designs separate
video and text transformers for contrastive learning between the video and text
to perform QA, instead of multi-modal transformer for answer classification.
Fine-grained video-text communication is done by additional cross-modal
interaction modules. 3) It is optimized by the joint fully- and self-supervised
contrastive objectives between the correct and incorrect answers, as well as
the relevant and irrelevant questions respectively. With superior video
encoding and QA solution, we show that CoVGT can achieve much better
performances than previous arts on video reasoning tasks. Its performances even
surpass those models that are pretrained with millions of external data. We
further show that CoVGT can also benefit from cross-modal pretraining, yet with
orders of magnitude smaller data. The results demonstrate the effectiveness and
superiority of CoVGT, and additionally reveal its potential for more
data-efficient pretraining. We hope our success can advance VideoQA beyond
coarse recognition/description towards fine-grained relation reasoning of video
contents. Our code will be available at https://github.com/doc-doc/CoVGT.
- Abstract(参考訳): 本稿では,ビデオグラフ変換器モデル(CoVGT)を用いて,ビデオ質問応答(VideoQA)をコントラスト的に行うことを提案する。
CoVGTの独自性と優越性は3倍である。
1) 複雑な時空間推論のために, 視覚オブジェクト, それらの関係, ダイナミクスを明示的に捉えて映像を符号化する動的グラフトランスフォーマモジュールを提案する。
2) 応答分類のためのマルチモーダル変換器ではなく,ビデオとテキスト間のコントラスト学習のためのビデオとテキストの変換器を設計する。
詳細なビデオテキスト通信は、追加のクロスモーダルインタラクションモジュールによって行われる。
3) 正解と誤答, 関連質問と無関係質問の間には, 完全かつ自己監督的な対照的目標が一致し, それぞれ最適化された。
優れたビデオエンコーディングとQAソリューションにより、CoVGTは従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
そのパフォーマンスは、何百万もの外部データで事前訓練されたモデルを上回る。
さらに、CoVGTは、桁違いに小さなデータで、クロスモーダル事前学習の恩恵を受けることができることを示す。
その結果、CoVGTの有効性と優位性を示し、さらにデータ効率のよい事前学習の可能性を明らかにした。
われわれの成功が、粗い認識/記述を超えて、ビデオコンテンツの微粒な関連性推論へと進むことを願っている。
私たちのコードはhttps://github.com/doc-doc/covgtで利用可能です。
関連論文リスト
- ViGT: Proposal-free Video Grounding with Learnable Token in Transformer [28.227291816020646]
ビデオグラウンディングタスクは、リッチな言語的記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存のプロポーザルフリーメソッドは、ビデオとクエリ間の複雑な相互作用に閉じ込められている。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:30:08Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Video Graph Transformer for Video Question Answering [182.14696075946742]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。
事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:51:32Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。