論文の概要: Dense but Efficient VideoQA for Intricate Compositional Reasoning
- arxiv url: http://arxiv.org/abs/2210.10300v1
- Date: Wed, 19 Oct 2022 05:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:37:11.328199
- Title: Dense but Efficient VideoQA for Intricate Compositional Reasoning
- Title(参考訳): 複雑な合成推論のためのDense but Efficient VideoQA
- Authors: Jihyeon Lee, Wooyoung Kang, Eun-Sol Kim
- Abstract要約: 複雑なタスクに対処するための変形性アテンション機構を備えたトランスフォーマーに基づく新しいビデオQA手法を提案する。
複雑な質問文内の係り受け構造は、言語埋め込みと組み合わせて、質問語間の意味的関係を容易に理解する。
- 参考スコア(独自算出の注目度): 9.514382838449928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well known that most of the conventional video question answering
(VideoQA) datasets consist of easy questions requiring simple reasoning
processes. However, long videos inevitably contain complex and compositional
semantic structures along with the spatio-temporal axis, which requires a model
to understand the compositional structures inherent in the videos. In this
paper, we suggest a new compositional VideoQA method based on transformer
architecture with a deformable attention mechanism to address the complex
VideoQA tasks. The deformable attentions are introduced to sample a subset of
informative visual features from the dense visual feature map to cover a
temporally long range of frames efficiently. Furthermore, the dependency
structure within the complex question sentences is also combined with the
language embeddings to readily understand the relations among question words.
Extensive experiments and ablation studies show that the suggested dense but
efficient model outperforms other baselines.
- Abstract(参考訳): 従来のビデオ質問応答(VideoQA)データセットのほとんどは、簡単な推論プロセスを必要とする簡単な質問で構成されていることはよく知られている。
しかし、長いビデオは時空間軸と共に複雑で構成的な意味構造を必然的に含み、ビデオに固有の構成構造を理解するモデルを必要とする。
本稿では、複雑なビデオQAタスクに対処するための変形性アテンション機構を備えたトランスフォーマーアーキテクチャに基づく新しい合成ビデオQA手法を提案する。
変形可能な注意を導入し、密集した視覚特徴マップから情報的な視覚特徴のサブセットをサンプリングし、時間的に長いフレームの範囲を効率的にカバーする。
さらに、複雑な質問文内の依存関係構造と言語埋め込みとを組み合わせることで、質問語間の関係を容易に理解する。
広範な実験とアブレーションの研究により、提案された高密度だが効率的なモデルが他のベースラインよりも優れていることが示されている。
関連論文リスト
- RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Discovering Spatio-Temporal Rationales for Video Question Answering [68.33688981540998]
本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:00:26Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。