論文の概要: Video Graph Transformer for Video Question Answering
- arxiv url: http://arxiv.org/abs/2207.05342v1
- Date: Tue, 12 Jul 2022 06:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:06:27.539804
- Title: Video Graph Transformer for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのビデオグラフ変換器
- Authors: Junbin Xiao, Pan Zhou, Tat-Seng Chua, Shuicheng Yan
- Abstract要約: 本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。
事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 182.14696075946742
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a Video Graph Transformer (VGT) model for Video Quetion
Answering (VideoQA). VGT's uniqueness are two-fold: 1) it designs a dynamic
graph transformer module which encodes video by explicitly capturing the visual
objects, their relations, and dynamics for complex spatio-temporal reasoning;
and 2) it exploits disentangled video and text Transformers for relevance
comparison between the video and text to perform QA, instead of entangled
cross-modal Transformer for answer classification. Vision-text communication is
done by additional cross-modal interaction modules. With more reasonable video
encoding and QA solution, we show that VGT can achieve much better performances
on VideoQA tasks that challenge dynamic relation reasoning than prior arts in
the pretraining-free scenario. Its performances even surpass those models that
are pretrained with millions of external data. We further show that VGT can
also benefit a lot from self-supervised cross-modal pretraining, yet with
orders of magnitude smaller data. These results clearly demonstrate the
effectiveness and superiority of VGT, and reveal its potential for more
data-efficient pretraining. With comprehensive analyses and some heuristic
observations, we hope that VGT can promote VQA research beyond coarse
recognition/description towards fine-grained relation reasoning in realistic
videos. Our code is available at https://github.com/sail-sg/VGT.
- Abstract(参考訳): 本稿では, Video Quetion Answering (VideoQA) のためのビデオグラフ変換器 (VGT) モデルを提案する。
VGTの特異性は2つある。
1)複雑な時空間推論のための視覚物体,それらの関係,力学を明示的に捉えて映像を符号化する動的グラフトランスフォーマモジュールを設計した。
2) アンタングル付きクロスモーダル変換器の代わりに, ビデオとテキストの関連性比較のために, アンタングル付きビデオとテキストの変換器を利用する。
視覚-テキスト通信は、追加のクロスモーダルインタラクションモジュールによって行われる。
より合理的なビデオエンコーディングとQAソリューションにより、VGTは事前学習のないシナリオにおいて、動的関係推論に挑戦するビデオQAタスクにおいて、事前学習のないシナリオよりもはるかに優れたパフォーマンスが得られることを示す。
そのパフォーマンスは、何百万もの外部データで事前訓練されたモデルを上回る。
さらに、VGTは自己教師型クロスモーダル事前学習の恩恵を受けることができるが、桁違いに小さなデータでも得られることを示す。
これらの結果は,VGTの有効性と優位性を明らかに示し,よりデータ効率の高い事前学習の可能性を明らかにした。
包括的分析とヒューリスティックな観察により、VGTは、粗い認識・記述以上のVQA研究を現実的なビデオにおける微粒な関係推論へと促進できることを期待している。
私たちのコードはhttps://github.com/sail-sg/vgtで利用可能です。
関連論文リスト
- Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - ViGT: Proposal-free Video Grounding with Learnable Token in Transformer [28.227291816020646]
ビデオグラウンディングタスクは、リッチな言語的記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存のプロポーザルフリーメソッドは、ビデオとクエリ間の複雑な相互作用に閉じ込められている。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:30:08Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z) - DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering [75.01757991135567]
本稿では,動画をエンドツーエンドで処理するDual-Visual Graph Reasoning Unit (DualVGR)を提案する。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-07-10T06:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。