論文の概要: Discovering Spatio-Temporal Rationales for Video Question Answering
- arxiv url: http://arxiv.org/abs/2307.12058v1
- Date: Sat, 22 Jul 2023 12:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:07:01.342133
- Title: Discovering Spatio-Temporal Rationales for Video Question Answering
- Title(参考訳): ビデオ質問応答のための時空間規則の発見
- Authors: Yicong Li, Junbin Xiao, Chun Feng, Xiang Wang, Tat-Seng Chua
- Abstract要約: 本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
- 参考スコア(独自算出の注目度): 68.33688981540998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper strives to solve complex video question answering (VideoQA) which
features long video containing multiple objects and events at different time.
To tackle the challenge, we highlight the importance of identifying
question-critical temporal moments and spatial objects from the vast amount of
video content. Towards this, we propose a Spatio-Temporal Rationalization
(STR), a differentiable selection module that adaptively collects
question-critical moments and objects using cross-modal interaction. The
discovered video moments and objects are then served as grounded rationales to
support answer reasoning. Based on STR, we further propose TranSTR, a
Transformer-style neural network architecture that takes STR as the core and
additionally underscores a novel answer interaction mechanism to coordinate STR
for answer decoding. Experiments on four datasets show that TranSTR achieves
new state-of-the-art (SoTA). Especially, on NExT-QA and Causal-VidQA which
feature complex VideoQA, it significantly surpasses the previous SoTA by 5.8\%
and 6.8\%, respectively. We then conduct extensive studies to verify the
importance of STR as well as the proposed answer interaction mechanism. With
the success of TranSTR and our comprehensive analysis, we hope this work can
spark more future efforts in complex VideoQA. Code will be released at
https://github.com/yl3800/TranSTR.
- Abstract(参考訳): 本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする複雑なビデオ質問応答(VideoQA)の解決を試みる。
この課題に対処するために,大量のビデオコンテンツから質問クリティカルな時間的モーメントと空間的オブジェクトを特定することの重要性を強調した。
そこで,我々は時空間合理化 (str) を提案する。このモジュールは相互モーダル相互作用を用いて,質問クリティカルなモーメントやオブジェクトを適応的に収集する。
見つかったビデオモーメントとオブジェクトは、答えの推論をサポートする根拠として提供されます。
さらにSTRをベースとして,STRをコアとするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
4つのデータセットの実験は、TrranSTRが新しい最先端(SoTA)を達成することを示している。
特に、複雑なビデオQAを特徴とするNEXT-QAとCausal-VidQAでは、以前のSoTAをそれぞれ5.8\%と6.8\%に大きく上回っている。
次に、STRの重要性と、提案する応答相互作用機構の検証について広範な研究を行う。
TranSTRの成功と包括的分析によって、この取り組みが、複雑なビデオQAにおけるより将来の取り組みを刺激することを期待しています。
コードはhttps://github.com/yl3800/transtrでリリースされる。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering [0.9712140341805068]
本稿では,実世界のビデオQAタスクに対して,Symbolic-world VideoQA (NSVideo-QA) というニューラルシンボリックなフレームワークを提案する。
NSVideo-QAは、構成質問に答える際の内部整合性を示し、ビデオQAタスクの論理推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-05T10:30:38Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。