論文の概要: Location-aware Graph Convolutional Networks for Video Question Answering
- arxiv url: http://arxiv.org/abs/2008.09105v1
- Date: Fri, 7 Aug 2020 02:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:25:25.802944
- Title: Location-aware Graph Convolutional Networks for Video Question Answering
- Title(参考訳): ビデオ質問応答のための位置対応グラフ畳み込みネットワーク
- Authors: Deng Huang, Peihao Chen, Runhao Zeng, Qing Du, Mingkui Tan, Chuang Gan
- Abstract要約: そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 85.44666165818484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We addressed the challenging task of video question answering, which requires
machines to answer questions about videos in a natural language form. Previous
state-of-the-art methods attempt to apply spatio-temporal attention mechanism
on video frame features without explicitly modeling the location and relations
among object interaction occurred in videos. However, the relations between
object interaction and their location information are very critical for both
action recognition and question reasoning. In this work, we propose to
represent the contents in the video as a location-aware graph by incorporating
the location information of an object into the graph construction. Here, each
node is associated with an object represented by its appearance and location
features. Based on the constructed graph, we propose to use graph convolution
to infer both the category and temporal locations of an action. As the graph is
built on objects, our method is able to focus on the foreground action contents
for better video question answering. Lastly, we leverage an attention mechanism
to combine the output of graph convolution and encoded question features for
final answer reasoning. Extensive experiments demonstrate the effectiveness of
the proposed methods. Specifically, our method significantly outperforms
state-of-the-art methods on TGIF-QA, Youtube2Text-QA, and MSVD-QA datasets.
Code and pre-trained models are publicly available at:
https://github.com/SunDoge/L-GCN
- Abstract(参考訳): 我々は,自然言語形式でビデオに関する質問に機械が答える必要があるビデオ質問応答の課題に対処した。
ビデオ内で発生した物体の相互作用の位置と関係を明示的にモデル化することなく、ビデオフレームの特徴に時空間的注意機構を適用しようとする従来の手法である。
しかし,物体の相互作用と位置情報の関係は,行動認識と質問推論の両方において非常に重要である。
本研究では,物体の位置情報をグラフ構築に組み込むことにより,映像中のコンテンツを位置認識グラフとして表現することを提案する。
ここで、各ノードは、その外観と位置特徴で表現されたオブジェクトに関連付けられる。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
このグラフはオブジェクト上に構築されているため,ビデオ質問応答を改善するために,前景のアクション内容に集中することが可能である。
最後に,グラフ畳み込みの出力とエンコードされた質問の特徴を組み合わせることで,最終回答の推論を行う。
広範な実験により,提案手法の有効性が実証された。
具体的には,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
コードおよび事前トレーニングされたモデルは、https://github.com/SunDoge/L-GCNで公開されている。
関連論文リスト
- Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - Learning Situation Hyper-Graphs for Video Question Answering [95.18071873415556]
本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-04-18T01:23:11Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。