論文の概要: Learning Situation Hyper-Graphs for Video Question Answering
- arxiv url: http://arxiv.org/abs/2304.08682v2
- Date: Sat, 6 May 2023 06:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 20:39:28.676989
- Title: Learning Situation Hyper-Graphs for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのハイパーグラフの学習状況
- Authors: Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham,
Chuang Gan, Niels Lobo, Mubarak Shah
- Abstract要約: 本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 95.18071873415556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Answering questions about complex situations in videos requires not only
capturing the presence of actors, objects, and their relations but also the
evolution of these relationships over time. A situation hyper-graph is a
representation that describes situations as scene sub-graphs for video frames
and hyper-edges for connected sub-graphs and has been proposed to capture all
such information in a compact structured form. In this work, we propose an
architecture for Video Question Answering (VQA) that enables answering
questions related to video content by predicting situation hyper-graphs, coined
Situation Hyper-Graph based Video Question Answering (SHG-VQA). To this end, we
train a situation hyper-graph decoder to implicitly identify graph
representations with actions and object/human-object relationships from the
input video clip. and to use cross-attention between the predicted situation
hyper-graphs and the question embedding to predict the correct answer. The
proposed method is trained in an end-to-end manner and optimized by a VQA loss
with the cross-entropy function and a Hungarian matching loss for the situation
graph prediction. The effectiveness of the proposed architecture is extensively
evaluated on two challenging benchmarks: AGQA and STAR. Our results show that
learning the underlying situation hyper-graphs helps the system to
significantly improve its performance for novel challenges of video
question-answering tasks.
- Abstract(参考訳): ビデオの複雑な状況に関する質問に答えるには、アクター、オブジェクト、そしてそれらの関係を捉えるだけでなく、時間とともにこれらの関係が進化していく必要がある。
状況ハイパーグラフは、映像フレームのシーンサブグラフや接続されたサブグラフのハイパーエッジとして状況を記述する表現であり、このような情報をコンパクトな構造化形式でキャプチャするために提案されている。
本研究では,映像コンテンツに関する質問に対して,映像ハイパーグラフに基づく映像質問回答システム(SHG-VQA)を作成した状況ハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
この目的のために、我々は状況ハイパーグラフデコーダを訓練し、入力ビデオクリップからアクションとオブジェクトとオブジェクトの関係を暗黙的に識別する。
そして、予測された状況のハイパーグラフと質問の埋め込みとを交互に使用し、正しい回答を予測できるようにする。
提案手法は, クロスエントロピー関数を用いたVQA損失と, 状況グラフ予測のためのハンガリー一致損失により, エンドツーエンドで学習し, 最適化する。
提案アーキテクチャの有効性はAGQAとSTARの2つの挑戦的なベンチマークで広く評価されている。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
関連論文リスト
- SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based
Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。
理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。
本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文 参考訳(メタデータ) (2023-10-03T07:14:53Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。