論文の概要: Cross-Modal Reasoning with Event Correlation for Video Question
Answering
- arxiv url: http://arxiv.org/abs/2312.12721v1
- Date: Wed, 20 Dec 2023 02:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:00:34.805218
- Title: Cross-Modal Reasoning with Event Correlation for Video Question
Answering
- Title(参考訳): ビデオ質問応答におけるイベント相関を用いたクロスモーダル推論
- Authors: Chengxiang Yin, Zhengping Che, Kun Wu, Zhiyuan Xu, Qinru Qiu, Jian
Tang
- Abstract要約: 本稿では, 副次的・蒸留的事象関連情報として高密度キャプションモダリティを導入し, その正解を推測する。
我々は、モーダル間関係を明示的にモデル化し、異なるモーダル間で関連情報を集約するために、モーダル間推論モジュールを用いる。
質問指向および事象関連エビデンスを多段階推論により収集する,質問誘導型自己適応型マルチモーダル融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 32.332251488360185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) is a very attractive and challenging
research direction aiming to understand complex semantics of heterogeneous data
from two domains, i.e., the spatio-temporal video content and the word sequence
in question. Although various attention mechanisms have been utilized to manage
contextualized representations by modeling intra- and inter-modal relationships
of the two modalities, one limitation of the predominant VideoQA methods is the
lack of reasoning with event correlation, that is, sensing and analyzing
relationships among abundant and informative events contained in the video. In
this paper, we introduce the dense caption modality as a new auxiliary and
distill event-correlated information from it to infer the correct answer. To
this end, we propose a novel end-to-end trainable model, Event-Correlated Graph
Neural Networks (EC-GNNs), to perform cross-modal reasoning over information
from the three modalities (i.e., caption, video, and question). Besides the
exploitation of a brand new modality, we employ cross-modal reasoning modules
for explicitly modeling inter-modal relationships and aggregating relevant
information across different modalities, and we propose a question-guided
self-adaptive multi-modal fusion module to collect the question-oriented and
event-correlated evidence through multi-step reasoning. We evaluate our model
on two widely-used benchmark datasets and conduct an ablation study to justify
the effectiveness of each proposed component.
- Abstract(参考訳): video question answering (videoqa)は、2つのドメインからの異種データの複雑なセマンティクスを理解することを目的とした、非常に魅力的で挑戦的な研究方向である。
この2つのモード間の相互関係をモデル化し、文脈的表現を管理するために様々な注意機構が利用されてきたが、支配的なビデオQA手法の1つの限界は、イベント相関による推論の欠如である。
本稿では,新しい補助的・蒸留的事象関連情報として,密接なキャプションモダリティを導入し,その正解を推定する。
そこで本研究では,3つのモダリティ(キャプション,ビデオ,質問など)からの情報に対するクロスモーダルな推論を行うための,エンドツーエンドのトレーニング可能な新しいモデルであるイベント相関グラフニューラルネットワーク(EC-GNN)を提案する。
新たなモダリティの活用に加えて、モーダル間の関係を明示的にモデル化し、様々なモダリティにまたがる関連情報を集約するクロスモーダル推論モジュールを用いて、多段階推論による質問指向および事象関連証拠の収集を行う。
提案手法は,2つのベンチマークデータセット上で評価し,各コンポーネントの有効性を正当化するためのアブレーション研究を行う。
関連論文リスト
- Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。