論文の概要: Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering
- arxiv url: http://arxiv.org/abs/2307.13250v1
- Date: Tue, 25 Jul 2023 04:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:26:44.315495
- Title: Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering
- Title(参考訳): ビデオ質問応答のためのキーワード対応相対時空間グラフネットワーク
- Authors: Yi Cheng, Hehe Fan, Dongyun Lin, Ying Sun, Mohan Kankanhalli, and
Joo-Hwee Lim
- Abstract要約: ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
- 参考スコア(独自算出の注目度): 16.502197578954917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main challenge in video question answering (VideoQA) is to capture and
understand the complex spatial and temporal relations between objects based on
given questions. Existing graph-based methods for VideoQA usually ignore
keywords in questions and employ a simple graph to aggregate features without
considering relative relations between objects, which may lead to inferior
performance. In this paper, we propose a Keyword-aware Relative Spatio-Temporal
(KRST) graph network for VideoQA. First, to make question features aware of
keywords, we employ an attention mechanism to assign high weights to keywords
during question encoding. The keyword-aware question features are then used to
guide video graph construction. Second, because relations are relative, we
integrate the relative relation modeling to better capture the spatio-temporal
dynamics among object nodes. Moreover, we disentangle the spatio-temporal
reasoning into an object-level spatial graph and a frame-level temporal graph,
which reduces the impact of spatial and temporal relation reasoning on each
other. Extensive experiments on the TGIF-QA, MSVD-QA and MSRVTT-QA datasets
demonstrate the superiority of our KRST over multiple state-of-the-art methods.
- Abstract(参考訳): ビデオ質問応答(VideoQA)の主な課題は、与えられた質問に基づいて、オブジェクト間の複雑な空間的および時間的関係をキャプチャして理解することである。
既存のビデオQAのグラフベースの手法は、通常質問のキーワードを無視し、単純なグラフを使ってオブジェクト間の相対関係を考慮せずに特徴を集約する。
本稿では,ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
まず,キーワードに関する質問の特徴を認識するために,質問エンコーディング中にキーワードに重み付けを割り当てるアテンション機構を用いる。
キーワード対応の質問機能は、ビデオグラフ構築のガイドに使用される。
第二に、関係が相対的であるため、相対関係モデルを統合し、オブジェクトノード間の時空間ダイナミクスをよりよく捉える。
さらに,空間的空間グラフとフレーム的時間グラフに時空間推論を関連付けることで,空間的および時間的関係推論が相互に与える影響を低減する。
TGIF-QA、MSVD-QA、MSRVTT-QAデータセットに関する大規模な実験は、複数の最先端手法よりもKRSTの方が優れていることを示す。
関連論文リスト
- Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - Learning Situation Hyper-Graphs for Video Question Answering [95.18071873415556]
本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-04-18T01:23:11Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。