論文の概要: Object-Centric Representation Learning for Video Question Answering
- arxiv url: http://arxiv.org/abs/2104.05166v2
- Date: Tue, 13 Apr 2021 07:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 11:15:05.679987
- Title: Object-Centric Representation Learning for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのオブジェクト中心表現学習
- Authors: Long Hoang Dang, Thao Minh Le, Vuong Le, Truyen Tran
- Abstract要約: ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.979053252431306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering (Video QA) presents a powerful testbed for
human-like intelligent behaviors. The task demands new capabilities to
integrate video processing, language understanding, binding abstract linguistic
concepts to concrete visual artifacts, and deliberative reasoning over
spacetime. Neural networks offer a promising approach to reach this potential
through learning from examples rather than handcrafting features and rules.
However, neural networks are predominantly feature-based - they map data to
unstructured vectorial representation and thus can fall into the trap of
exploiting shortcuts through surface statistics instead of true systematic
reasoning seen in symbolic systems. To tackle this issue, we advocate for
object-centric representation as a basis for constructing spatio-temporal
structures from videos, essentially bridging the semantic gap between low-level
pattern recognition and high-level symbolic algebra. To this end, we propose a
new query-guided representation framework to turn a video into an evolving
relational graph of objects, whose features and interactions are dynamically
and conditionally inferred. The object lives are then summarized into resumes,
lending naturally for deliberative relational reasoning that produces an answer
to the query. The framework is evaluated on major Video QA datasets,
demonstrating clear benefits of the object-centric approach to video reasoning.
- Abstract(参考訳): ビデオ質問応答(ビデオQA)は、人間のような知的行動のための強力なテストベッドを提供する。
このタスクは、ビデオ処理、言語理解、抽象言語概念を具体的な視覚的アーティファクトに結合すること、時空上の意図的な推論を統合するために、新たな能力を要求する。
ニューラルネットワークは、手作りの機能やルールではなく、例から学ぶことによって、この可能性を達成するための有望なアプローチを提供する。
しかし、ニューラルネットワークは主に機能ベースであり、非構造化ベクトル表現にデータをマッピングするため、シンボルシステムに見られる真の体系的推論ではなく、表面統計を通じてショートカットを悪用する罠に陥る可能性がある。
この問題に取り組むため,我々は映像から時空間構造を構築するための基盤としてオブジェクト中心表現を提唱し,低レベルパターン認識と高レベルシンボリック代数の間の意味的ギャップを橋渡しする。
そこで本研究では,映像を動的かつ条件付きで推論されたオブジェクトのリレーショナルグラフにするための,新たなクエリ誘導表現フレームワークを提案する。
オブジェクトのライフは履歴書にまとめられ、クエリに対する応答を生成する意図的な関係推論のために自然に貸し出される。
このフレームワークは主要なビデオqaデータセットで評価され、ビデオ推論に対するオブジェクト指向アプローチの明確な利点を示しています。
関連論文リスト
- Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。