論文の概要: Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering
- arxiv url: http://arxiv.org/abs/2404.04007v1
- Date: Fri, 5 Apr 2024 10:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:24:44.836367
- Title: Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering
- Title(参考訳): ニューラルシンボリックビデオQA:リアルタイムビデオ質問応答のための合成時空間推論学習
- Authors: Lili Liang, Guanglu Sun, Jin Qiu, Lizhong Zhang,
- Abstract要約: 本稿では,実世界のビデオQAタスクに対して,Symbolic-world VideoQA (NSVideo-QA) というニューラルシンボリックなフレームワークを提案する。
NSVideo-QAは、構成質問に答える際の内部整合性を示し、ビデオQAタスクの論理推論能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 0.9712140341805068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional spatio-temporal reasoning poses a significant challenge in the field of video question answering (VideoQA). Existing approaches struggle to establish effective symbolic reasoning structures, which are crucial for answering compositional spatio-temporal questions. To address this challenge, we propose a neural-symbolic framework called Neural-Symbolic VideoQA (NS-VideoQA), specifically designed for real-world VideoQA tasks. The uniqueness and superiority of NS-VideoQA are two-fold: 1) It proposes a Scene Parser Network (SPN) to transform static-dynamic video scenes into Symbolic Representation (SR), structuralizing persons, objects, relations, and action chronologies. 2) A Symbolic Reasoning Machine (SRM) is designed for top-down question decompositions and bottom-up compositional reasonings. Specifically, a polymorphic program executor is constructed for internally consistent reasoning from SR to the final answer. As a result, Our NS-VideoQA not only improves the compositional spatio-temporal reasoning in real-world VideoQA task, but also enables step-by-step error analysis by tracing the intermediate results. Experimental evaluations on the AGQA Decomp benchmark demonstrate the effectiveness of the proposed NS-VideoQA framework. Empirical studies further confirm that NS-VideoQA exhibits internal consistency in answering compositional questions and significantly improves the capability of spatio-temporal and logical inference for VideoQA tasks.
- Abstract(参考訳): 合成時空間推論はビデオ質問応答(VideoQA)の分野において重要な課題である。
既存のアプローチは効果的な記号的推論構造を確立するのに苦労しており、これは構成時空間的疑問に答えるのに不可欠である。
この課題に対処するため,実世界のビデオQAタスクに特化して設計されたNeural-Symbolic VideoQA(NS-VideoQA)というニューラルシンボリックなフレームワークを提案する。
NS-VideoQAの独自性と優位性は2つある。
1)Scene Parser Network(SPN)を提案し,静的な動画像シーンをシンボル表現(SR)に変換し,人,物,関係,行動年代を構造化する。
2)シンボリック推論機械(SRM)は,トップダウン質問分解とボトムアップ合成推論のために設計されている。
具体的には、SRから最終解への内部的一貫した推論のために、多形プログラム実行子を構築する。
その結果、我々のNS-VideoQAは、実世界のビデオQAタスクにおける合成時空間的推論を改善するだけでなく、中間結果をトレースすることでステップバイステップのエラー解析を可能にする。
AGQA Decompベンチマークの実験により,提案したNS-VideoQAフレームワークの有効性が示された。
さらに、NS-VideoQAが構成的質問に答える際の内部整合性を示し、ビデオQAタスクの時空間的および論理的推論能力を大幅に向上させることが実証された。
関連論文リスト
- Discovering Spatio-Temporal Rationales for Video Question Answering [68.33688981540998]
本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:00:26Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Question Answering over Knowledge Bases by Leveraging Semantic Parsing
and Neuro-Symbolic Reasoning [73.00049753292316]
本稿では,意味解析と推論に基づくニューロシンボリック質問回答システムを提案する。
NSQAはQALD-9とLC-QuAD 1.0で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-03T05:17:55Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。