論文の概要: Hierarchical Conditional Relation Networks for Video Question Answering
- arxiv url: http://arxiv.org/abs/2002.10698v3
- Date: Tue, 17 Mar 2020 08:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:46:33.699383
- Title: Hierarchical Conditional Relation Networks for Video Question Answering
- Title(参考訳): ビデオ質問応答のための階層的条件関係ネットワーク
- Authors: Thao Minh Le, Vuong Le, Svetha Venkatesh, and Truyen Tran
- Abstract要約: 条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
- 参考スコア(独自算出の注目度): 62.1146543269993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video question answering (VideoQA) is challenging as it requires modeling
capacity to distill dynamic visual artifacts and distant relations and to
associate them with linguistic concepts. We introduce a general-purpose
reusable neural unit called Conditional Relation Network (CRN) that serves as a
building block to construct more sophisticated structures for representation
and reasoning over video. CRN takes as input an array of tensorial objects and
a conditioning feature, and computes an array of encoded output objects. Model
building becomes a simple exercise of replication, rearrangement and stacking
of these reusable units for diverse modalities and contextual information. This
design thus supports high-order relational and multi-step reasoning. The
resulting architecture for VideoQA is a CRN hierarchy whose branches represent
sub-videos or clips, all sharing the same question as the contextual condition.
Our evaluations on well-known datasets achieved new SoTA results, demonstrating
the impact of building a general-purpose reasoning unit on complex domains such
as VideoQA.
- Abstract(参考訳): ビデオ質問応答(VideoQA)は、動的視覚的アーティファクトと遠縁関係を蒸留し、それらと言語概念を関連付けるためのモデリング能力を必要とするため、難しい。
本稿では,映像表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する,条件付き関係ネットワーク(crn)と呼ばれる汎用再利用可能なニューラルユニットを提案する。
CRNはテンソルオブジェクトの配列と条件付け機能を入力として取り、符号化された出力オブジェクトの配列を計算する。
モデル構築は、様々なモダリティとコンテキスト情報のために、これらの再利用可能なユニットの複製、再配置、積み重ねの簡単な演習となる。
この設計は高次リレーショナルおよび多段階推論をサポートする。
VideoQAのアーキテクチャはCRN階層であり、ブランチはサブビデオやクリップを表し、全員がコンテキスト条件と同じ質問を共有する。
よく知られているデータセットに対する評価により,新たなsota結果が得られ,videoqaのような複雑なドメインに対する汎用推論ユニットの構築が与える影響が示された。
関連論文リスト
- Discovering Spatio-Temporal Rationales for Video Question Answering [68.33688981540998]
本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:00:26Z) - Dense but Efficient VideoQA for Intricate Compositional Reasoning [9.514382838449928]
複雑なタスクに対処するための変形性アテンション機構を備えたトランスフォーマーに基づく新しいビデオQA手法を提案する。
複雑な質問文内の係り受け構造は、言語埋め込みと組み合わせて、質問語間の意味的関係を容易に理解する。
論文 参考訳(メタデータ) (2022-10-19T05:01:20Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Object-Centric Representation Learning for Video Question Answering [27.979053252431306]
ビデオ回答(Video QA)は、人間のようなインテリジェントな行動のための強力なテストベッドを提供します。
このタスクは、処理、言語理解、抽象概念を具体的なビジュアルアーティファクトに結合する新しい機能を必要とする。
本稿では,映像をオブジェクトのリレーショナルグラフに変換するための新しいクエリ誘導表現フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-12T02:37:20Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。