論文の概要: Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering
- arxiv url: http://arxiv.org/abs/2010.10019v2
- Date: Sun, 3 Jan 2021 07:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 03:47:37.611999
- Title: Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering
- Title(参考訳): マルチモーダルビデオ質問応答のための階層的条件関係ネットワーク
- Authors: Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran
- Abstract要約: ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
- 参考スコア(独自算出の注目度): 67.85579756590478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video QA challenges modelers in multiple fronts. Modeling video necessitates
building not only spatio-temporal models for the dynamic visual channel but
also multimodal structures for associated information channels such as
subtitles or audio. Video QA adds at least two more layers of complexity -
selecting relevant content for each channel in the context of the linguistic
query, and composing spatio-temporal concepts and relations in response to the
query. To address these requirements, we start with two insights: (a) content
selection and relation construction can be jointly encapsulated into a
conditional computational structure, and (b) video-length structures can be
composed hierarchically. For (a) this paper introduces a general-reusable
neural unit dubbed Conditional Relation Network (CRN) taking as input a set of
tensorial objects and translating into a new set of objects that encode
relations of the inputs. The generic design of CRN helps ease the common
complex model building process of Video QA by simple block stacking with
flexibility in accommodating input modalities and conditioning features across
both different domains. As a result, we realize insight (b) by introducing
Hierarchical Conditional Relation Networks (HCRN) for Video QA. The HCRN
primarily aims at exploiting intrinsic properties of the visual content of a
video and its accompanying channels in terms of compositionality, hierarchy,
and near and far-term relation. HCRN is then applied for Video QA in two forms,
short-form where answers are reasoned solely from the visual content, and
long-form where associated information, such as subtitles, presented. Our
rigorous evaluations show consistent improvements over SOTAs on well-studied
benchmarks including large-scale real-world datasets such as TGIF-QA and TVQA,
demonstrating the strong capabilities of our CRN unit and the HCRN for complex
domains such as Video QA.
- Abstract(参考訳): ビデオQAは、複数の面でモデラーに挑戦する。
ビデオのモデリングには動的視覚チャネルのための時空間モデルだけでなく、サブタイトルやオーディオといった関連する情報チャネルのためのマルチモーダル構造を構築する必要がある。
ビデオQAは、言語クエリのコンテキストで各チャネルに関連するコンテンツを選択し、クエリに応答して時空間の概念と関係を構成する、少なくとも2つの複雑さのレイヤを追加します。
これらの要件に対処するために、私たちは2つの洞察から始めます。
(a)内容の選択と関係構築を条件付き計算構造に共同でカプセル化することができ、
b) ビデオ長構造は階層的に構成することができる。
のために
(a) テンソルオブジェクトの集合を入力として、入力の関係を符号化する新しいオブジェクトの集合に変換する、条件付き関係ネットワーク(CRN)と呼ばれる一般利用可能なニューラルネットワークを導入する。
crnの汎用設計は、入力モダリティやコンディショニング機能を両ドメインに結合する柔軟性を備えたシンプルなブロック積み重ねによって、ビデオqaの一般的な複雑なモデル構築プロセスを容易にする。
その結果、私たちは洞察に気づきます。
(b)ビデオQAのための階層的条件関係ネットワーク(HCRN)を導入する。
HCRNは、主に、構成性、階層性、および近時・遠時関係の観点から、ビデオとその付随するチャンネルの視覚的内容の固有の特性を活用することを目的としている。
HCRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
我々の厳密な評価は、ビデオQAのような複雑なドメインに対するCRNユニットとHCRNの強みを実証し、TGIF-QAやTVQAのような大規模な実世界のデータセットを含むよく研究されたベンチマークにおいて、SOTAよりも一貫した改善を示している。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Dense but Efficient VideoQA for Intricate Compositional Reasoning [9.514382838449928]
複雑なタスクに対処するための変形性アテンション機構を備えたトランスフォーマーに基づく新しいビデオQA手法を提案する。
複雑な質問文内の係り受け構造は、言語埋め込みと組み合わせて、質問語間の意味的関係を容易に理解する。
論文 参考訳(メタデータ) (2022-10-19T05:01:20Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。