論文の概要: MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering
- arxiv url: http://arxiv.org/abs/2212.09522v1
- Date: Mon, 19 Dec 2022 15:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:50:39.552447
- Title: MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering
- Title(参考訳): MIST:長時間ビデオ質問応答のためのマルチモーダル反復時空間変換器
- Authors: Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou
- Abstract要約: 我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
- 参考スコア(独自算出の注目度): 73.61182342844639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To build Video Question Answering (VideoQA) systems capable of assisting
humans in daily activities, seeking answers from long-form videos with diverse
and complex events is a must. Existing multi-modal VQA models achieve promising
performance on images or short video clips, especially with the recent success
of large-scale multi-modal pre-training. However, when extending these methods
to long-form videos, new challenges arise. On the one hand, using a dense video
sampling strategy is computationally prohibitive. On the other hand, methods
relying on sparse sampling struggle in scenarios where multi-event and
multi-granularity visual reasoning are required. In this work, we introduce a
new model named Multi-modal Iterative Spatial-temporal Transformer (MIST) to
better adapt pre-trained models for long-form VideoQA. Specifically, MIST
decomposes traditional dense spatial-temporal self-attention into cascaded
segment and region selection modules that adaptively select frames and image
regions that are closely relevant to the question itself. Visual concepts at
different granularities are then processed efficiently through an attention
module. In addition, MIST iteratively conducts selection and attention over
multiple layers to support reasoning over multiple events. The experimental
results on four VideoQA datasets, including AGQA, NExT-QA, STAR, and Env-QA,
show that MIST achieves state-of-the-art performance and is superior at
computation efficiency and interpretability.
- Abstract(参考訳): 映像質問応答(Video Question Answering, VideoQA)システムを構築するためには,多種多様な複雑なイベントを伴う長文ビデオからの回答を求める必要がある。
既存のマルチモーダルVQAモデルは、特に最近の大規模マルチモーダル事前トレーニングの成功により、画像やショートビデオクリップ上で有望なパフォーマンスを達成する。
しかし,これらの手法を長めのビデオに拡張する場合,新たな課題が生じる。
一方、高密度ビデオサンプリング戦略は計算的に禁止されている。
一方,マルチイベントやマルチグラニュラリティの視覚的推論が必要なシナリオでは,スパースサンプリングによる手法が問題となる。
本研究では,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
具体的には、MISTは従来の密集時空間自己認識をカスケードセグメントと領域選択モジュールに分解し、問題自体に密接に関連するフレームと画像領域を適応的に選択する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
さらに、MISTは複数のイベントに対する推論をサポートするために、複数のレイヤの選択と注意を反復的に行う。
AGQA, NExT-QA, STAR, Env-QAを含む4つのビデオQAデータセットの実験結果から, MISTが最先端の性能を達成し, 計算効率と解釈性に優れていることが示された。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Top-down Activity Representation Learning for Video Question Answering [4.236280446793381]
複雑な階層的人間活動の獲得は、高性能ビデオ質問応答(VideoQA)の実現に不可欠である
長時間のビデオシーケンスを空間画像領域に変換し、ビデオQAタスクのためのマルチモーダルモデルLLaVAを微調整する。
提案手法は,STARタスク,特に78.4%の精度で,NExTQAタスクの2.8ポイント以上を達成している。
論文 参考訳(メタデータ) (2024-09-12T04:43:27Z) - Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos [35.974750867072345]
本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。
時間的エビデンスを伴う複数ホップ質問応答ペアを生成するための自動パイプラインを開発する。
次に,大規模言語モデル (GeLM) を用いたグラウンディング散乱証拠 (Gunding Scattered Evidence with Large Language Model) と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:47Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。