論文の概要: Structured Two-stream Attention Network for Video Question Answering
- arxiv url: http://arxiv.org/abs/2206.01017v1
- Date: Thu, 2 Jun 2022 12:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:34:49.003942
- Title: Structured Two-stream Attention Network for Video Question Answering
- Title(参考訳): ビデオ質問応答のための構造化2ストリーム注意ネットワーク
- Authors: Lianli Gao, Pengpeng Zeng, Jingkuan Song, Yuan-Fang Li, Wu Liu, Tao
Mei, Heng Tao Shen
- Abstract要約: 本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
- 参考スコア(独自算出の注目度): 168.95603875458113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To date, visual question answering (VQA) (i.e., image QA and video QA) is
still a holy grail in vision and language understanding, especially for video
QA. Compared with image QA that focuses primarily on understanding the
associations between image region-level details and corresponding questions,
video QA requires a model to jointly reason across both spatial and long-range
temporal structures of a video as well as text to provide an accurate answer.
In this paper, we specifically tackle the problem of video QA by proposing a
Structured Two-stream Attention network, namely STA, to answer a free-form or
open-ended natural language question about the content of a given video. First,
we infer rich long-range temporal structures in videos using our structured
segment component and encode text features. Then, our structured two-stream
attention component simultaneously localizes important visual instance, reduces
the influence of background video and focuses on the relevant text. Finally,
the structured two-stream fusion component incorporates different segments of
query and video aware context representation and infers the answers.
Experiments on the large-scale video QA dataset \textit{TGIF-QA} show that our
proposed method significantly surpasses the best counterpart (i.e., with one
representation for the video input) by 13.0%, 13.5%, 11.0% and 0.3 for Action,
Trans., TrameQA and Count tasks. It also outperforms the best competitor (i.e.,
with two representations) on the Action, Trans., TrameQA tasks by 4.1%, 4.7%,
and 5.1%.
- Abstract(参考訳): 現在まで、視覚的質問応答(VQA)(画像QAとビデオQA)は、特にビデオQAにおいて、視覚と言語理解の聖杯である。
画像領域の細部とそれに対応する質問との関係を主に理解することに焦点を当てた画像QAと比較して、ビデオQAは、ビデオの空間的・長距離時間構造と、正確な回答を提供するためのテキストの両方を共同で推論するモデルを必要とする。
本稿では,構造化された2ストリームアテンションネットワークであるstaを提案することで,ビデオのコンテンツに関する自由形式あるいは開放型自然言語質問に答えることによって,ビデオqaの問題に具体的に取り組む。
まず,構造化セグメントコンポーネントを用いて,映像中のリッチな長距離時間構造を推定し,テキスト特徴をエンコードする。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
最後に、構造化された2ストリーム融合コンポーネントは、クエリとビデオ認識コンテキスト表現の異なるセグメントを組み込んで、回答を推測する。
大規模ビデオQAデータセットであるtextit{TGIF-QA} を用いた実験により,提案手法は最も優れた手法(つまり,ビデオ入力の1つの表現)を13.0%,13.5%,11.0%,0.3 for Action,Trans。
、TrameQA、Countタスク。
また、Action, Transで最高の競争相手(つまり2つの表現)を上回っている。
トラメカタスクは4.1%,4.7%,5.1%増加した。
関連論文リスト
- Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - Discovering Spatio-Temporal Rationales for Video Question Answering [68.33688981540998]
本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:00:26Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。