論文の概要: DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering
- arxiv url: http://arxiv.org/abs/2107.04768v1
- Date: Sat, 10 Jul 2021 06:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:09:17.868805
- Title: DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering
- Title(参考訳): DualVGR:ビデオ質問応答のためのデュアルビジュアルグラフ推論ユニット
- Authors: Jianyu Wang, Bing-Kun Bao, Changsheng Xu
- Abstract要約: 本稿では,動画をエンドツーエンドで処理するDual-Visual Graph Reasoning Unit (DualVGR)を提案する。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセット上で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 75.01757991135567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering is a challenging task, which requires agents to be
able to understand rich video contents and perform spatial-temporal reasoning.
However, existing graph-based methods fail to perform multi-step reasoning
well, neglecting two properties of VideoQA: (1) Even for the same video,
different questions may require different amount of video clips or objects to
infer the answer with relational reasoning; (2) During reasoning, appearance
and motion features have complicated interdependence which are correlated and
complementary to each other. Based on these observations, we propose a
Dual-Visual Graph Reasoning Unit (DualVGR) which reasons over videos in an
end-to-end fashion. The first contribution of our DualVGR is the design of an
explainable Query Punishment Module, which can filter out irrelevant visual
features through multiple cycles of reasoning. The second contribution is the
proposed Video-based Multi-view Graph Attention Network, which captures the
relations between appearance and motion features. Our DualVGR network achieves
state-of-the-art performance on the benchmark MSVD-QA and SVQA datasets, and
demonstrates competitive results on benchmark MSRVTT-QA datasets. Our code is
available at https://github.com/MMIR/DualVGR-VideoQA.
- Abstract(参考訳): ビデオ質問応答は難しい作業であり、エージェントはリッチなビデオコンテンツを理解し、空間的時間的推論を行う必要がある。
しかし、既存のグラフベースの手法では、ビデオQAの2つの特性を無視して、多段階の推論をうまく行えない。(1)同じビデオであっても、異なる質問は、関係推論で答えを推測するために異なる量のビデオクリップやオブジェクトを必要とする可能性がある。
これらの観察に基づいて,ビデオ上でエンドツーエンドに推論を行うデュアルビジュアルグラフ推論ユニット(dualvgr)を提案する。
DualVGRの最初のコントリビューションは、説明可能なQuery Punishment Moduleの設計です。
2つめの貢献は、ビデオベースのマルチビューグラフアテンションネットワークであり、外観と動きの特徴の関係をキャプチャする。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセットの最先端性能を実現し、ベンチマークMSRVTT-QAデータセットの競合結果を示す。
私たちのコードはhttps://github.com/MMIR/DualVGR-VideoQA.comで公開されています。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering [50.11756459499762]
軽量な視覚言語推論フレームワークLiVLRを提案する。
LiVLRは、まず、グラフベースの視覚と言語のアブリケーションを使用して、多義的な視覚と言語表現を得る。
提案したLiVLRは軽量で、2つのVideoQAベンチマークでパフォーマンス上の優位性を示す。
論文 参考訳(メタデータ) (2021-11-29T14:18:47Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。