論文の概要: HySTER: A Hybrid Spatio-Temporal Event Reasoner
- arxiv url: http://arxiv.org/abs/2101.06644v1
- Date: Sun, 17 Jan 2021 11:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 20:23:09.925786
- Title: HySTER: A Hybrid Spatio-Temporal Event Reasoner
- Title(参考訳): HySTER: ハイブリッド時空間イベント共振器
- Authors: Theophile Sautory, Nuri Cingillioglu, Alessandra Russo
- Abstract要約: HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
- 参考スコア(独自算出の注目度): 75.41988728376081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Video Question Answering (VideoQA) consists in answering natural
language questions about a video and serves as a proxy to evaluate the
performance of a model in scene sequence understanding. Most methods designed
for VideoQA up-to-date are end-to-end deep learning architectures which
struggle at complex temporal and causal reasoning and provide limited
transparency in reasoning steps. We present the HySTER: a Hybrid
Spatio-Temporal Event Reasoner to reason over physical events in videos. Our
model leverages the strength of deep learning methods to extract information
from video frames with the reasoning capabilities and explainability of
symbolic artificial intelligence in an answer set programming framework. We
define a method based on general temporal, causal and physics rules which can
be transferred across tasks. We apply our model to the CLEVRER dataset and
demonstrate state-of-the-art results in question answering accuracy. This work
sets the foundations for the incorporation of inductive logic programming in
the field of VideoQA.
- Abstract(参考訳): Video Question Answering(ビデオQA)のタスクは、ビデオに関する自然言語の質問に答えることと、シーンシーケンス理解におけるモデルの性能を評価するプロキシとして機能することである。
最新のビデオQA用に設計されたほとんどの手法は、複雑な時間的および因果推論に苦労し、推論ステップにおいて限られた透明性を提供するエンドツーエンドのディープラーニングアーキテクチャである。
我々はHySTER: a Hybrid Spatio-Temporal Event Reasonerを紹介した。
本モデルでは,映像フレームから情報を取り出すための深層学習手法の強みを活用し,応答集合プログラミングフレームワークにおけるシンボル人工知能の推論能力と説明可能性について考察する。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
我々は,我々のモデルをCLEVRERデータセットに適用し,質問応答精度を示す。
この研究は、ビデオQAの分野における帰納論理プログラミングの組み入れの基礎を定めている。
関連論文リスト
- STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.78038233351758]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T21:53:54Z) - Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering [0.9712140341805068]
本稿では,実世界のビデオQAタスクに対して,Symbolic-world VideoQA (NSVideo-QA) というニューラルシンボリックなフレームワークを提案する。
NSVideo-QAは、構成質問に答える際の内部整合性を示し、ビデオQAタスクの論理推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-05T10:30:38Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。