論文の概要: Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering
- arxiv url: http://arxiv.org/abs/2106.13432v1
- Date: Fri, 25 Jun 2021 05:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:07:17.040285
- Title: Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering
- Title(参考訳): ビデオ質問応答のための階層的オブジェクト指向時空間推論
- Authors: Long Hoang Dang, Thao Minh Le, Vuong Le, Truyen Tran
- Abstract要約: Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
- 参考スコア(独自算出の注目度): 27.979053252431306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (Video QA) is a powerful testbed to develop new AI
capabilities. This task necessitates learning to reason about objects,
relations, and events across visual and linguistic domains in space-time.
High-level reasoning demands lifting from associative visual pattern
recognition to symbol-like manipulation over objects, their behavior and
interactions. Toward reaching this goal we propose an object-oriented reasoning
approach in that video is abstracted as a dynamic stream of interacting
objects. At each stage of the video event flow, these objects interact with
each other, and their interactions are reasoned about with respect to the query
and under the overall context of a video. This mechanism is materialized into a
family of general-purpose neural units and their multi-level architecture
called Hierarchical Object-oriented Spatio-Temporal Reasoning (HOSTR) networks.
This neural model maintains the objects' consistent lifelines in the form of a
hierarchically nested spatio-temporal graph. Within this graph, the dynamic
interactive object-oriented representations are built up along the video
sequence, hierarchically abstracted in a bottom-up manner, and converge toward
the key information for the correct answer. The method is evaluated on multiple
major Video QA datasets and establishes new state-of-the-arts in these tasks.
Analysis into the model's behavior indicates that object-oriented reasoning is
a reliable, interpretable and efficient approach to Video QA.
- Abstract(参考訳): Video Question Answering(ビデオQA)は新しいAI機能を開発するための強力なテストベッドである。
このタスクは、時空における視覚ドメインと言語ドメイン間のオブジェクト、関係、イベントの推論を学ぶ必要がある。
高レベルの推論は、連想的な視覚的パターン認識から、オブジェクトに対するシンボルのような操作、その振る舞いと相互作用への要求を軽減します。
この目標を達成するために,映像を相互作用するオブジェクトの動的ストリームとして抽象化するオブジェクト指向推論手法を提案する。
ビデオイベントフローの各段階で、これらのオブジェクトは相互に相互作用し、それらの相互作用は、クエリおよびビデオの全体的なコンテキストの下で、推論される。
このメカニズムは汎用神経ユニットのファミリーと階層的オブジェクト指向時空間推論(HOSTR)ネットワークと呼ばれる多層アーキテクチャに実体化されている。
このニューラルモデルは、階層的にネストされた時空間グラフの形で、オブジェクトの一貫したライフラインを維持する。
このグラフ内では、動的インタラクティブなオブジェクト指向表現がビデオシーケンスに沿って構築され、階層的にボトムアップ的に抽象化され、正しい回答のキー情報に収束する。
この手法は、複数の主要なビデオQAデータセットで評価され、これらのタスクに新しい最先端技術を確立する。
モデルの振る舞いの分析は、オブジェクト指向推論がビデオQAに対する信頼性、解釈可能、効率的なアプローチであることを示している。
関連論文リスト
- Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - Grounding Physical Concepts of Objects and Events Through Dynamic Visual
Reasoning [84.90458333884443]
本稿では、物理オブジェクトやイベントをビデオや言語から基盤とする統合フレームワークであるDynamic Concept Learner(DCL)を紹介する。
dclは、フレーム、グランドビジュアルプロパティ、物理イベントのオブジェクトを検出し、関連付けることができ、イベント間の因果関係を理解し、将来の予測と偽りの予測を行い、これらのプレゼンテーションをクエリに利用することができる。
DCLは、地上トラス属性や衝突ラベルをトレーニング用シミュレーションから使用することなく、困難な因果的ビデオ推論データセットであるCLEVRERで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-30T17:59:48Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。