論文の概要: Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering
- arxiv url: http://arxiv.org/abs/2401.01529v1
- Date: Wed, 3 Jan 2024 03:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:08:28.090886
- Title: Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering
- Title(参考訳): Glance and Focus:マルチイベントビデオ質問応答のためのメモリプロンプト
- Authors: Ziyi Bai, Ruiping Wang, Xilin Chen
- Abstract要約: VideoQAは、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
人間は一連のエピソード記憶をアンカーとして使い、推論のための質問に関連する重要な瞬間を素早く見つけることで、簡単に対処できる。
この効果的な推論戦略を模倣するGlance-Focusモデルを提案する。
- 参考スコア(独自算出の注目度): 36.00733800536469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) has emerged as a vital tool to evaluate
agents' ability to understand human daily behaviors. Despite the recent success
of large vision language models in many multi-modal tasks, complex situation
reasoning over videos involving multiple human-object interaction events still
remains challenging. In contrast, humans can easily tackle it by using a series
of episode memories as anchors to quickly locate question-related key moments
for reasoning. To mimic this effective reasoning strategy, we propose the
Glance-Focus model. One simple way is to apply an action detection model to
predict a set of actions as key memories. However, these actions within a
closed set vocabulary are hard to generalize to various video domains. Instead
of that, we train an Encoder-Decoder to generate a set of dynamic event
memories at the glancing stage. Apart from using supervised bipartite matching
to obtain the event memories, we further design an unsupervised memory
generation method to get rid of dependence on event annotations. Next, at the
focusing stage, these event memories act as a bridge to establish the
correlation between the questions with high-level event concepts and low-level
lengthy video content. Given the question, the model first focuses on the
generated key event memory, then focuses on the most relevant moment for
reasoning through our designed multi-level cross-attention mechanism. We
conduct extensive experiments on four Multi-Event VideoQA benchmarks including
STAR, EgoTaskQA, AGQA, and NExT-QA. Our proposed model achieves
state-of-the-art results, surpassing current large models in various
challenging reasoning tasks. The code and models are available at
https://github.com/ByZ0e/Glance-Focus.
- Abstract(参考訳): ビデオ質問回答(Video Question Answering, VideoQA)は、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
多くのマルチモーダルタスクにおける大規模視覚言語モデルの成功にもかかわらず、複数の人間とオブジェクトのインタラクションイベントを含むビデオに対する複雑な状況推論は依然として困難である。
対照的に、人間は一連のエピソード記憶をアンカーとして使い、推論のための質問関連キーモーメントを素早く見つけることで、簡単に対処することができる。
この効果的な推論戦略を模倣するために,視線焦点モデルを提案する。
1つの簡単な方法は、アクションの集合をキーメモリとして予測するためにアクション検出モデルを適用することである。
しかし、閉集合語彙内のこれらの作用は、様々なビデオ領域に一般化することは困難である。
その代わりに、エンコーダ-デコーダをトレーニングして、グラランシングステージで動的イベントメモリのセットを生成します。
イベントメモリを取得するために教師付き2部マッチングを使用するのとは別に、教師なしメモリ生成メソッドを更に設計し、イベントアノテーションへの依存をなくす。
次に、これらのイベント記憶は、高レベルのイベント概念と低レベルのビデオコンテンツとの相関関係を確立するためのブリッジとして機能する。
このモデルでは、まず生成したキーイベントメモリに注目し、次に、設計したマルチレベルクロスアテンションメカニズムを推論するための最も関連するモーメントに焦点を合わせます。
われわれはSTAR, EgoTaskQA, AGQA, NExT-QAを含む4つのマルチイベントビデオQAベンチマークについて広範な実験を行った。
提案モデルでは,様々な課題の推論タスクにおいて,現在の大規模モデルを超えながら最先端の結果が得られる。
コードとモデルはhttps://github.com/byz0e/glance-focusで入手できる。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Top-down Activity Representation Learning for Video Question Answering [4.236280446793381]
複雑な階層的人間活動の獲得は、高性能ビデオ質問応答(VideoQA)の実現に不可欠である
長時間のビデオシーケンスを空間画像領域に変換し、ビデオQAタスクのためのマルチモーダルモデルLLaVAを微調整する。
提案手法は,STARタスク,特に78.4%の精度で,NExTQAタスクの2.8ポイント以上を達成している。
論文 参考訳(メタデータ) (2024-09-12T04:43:27Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - Enhancing Long Video Understanding via Hierarchical Event-Based Memory [9.800516656566774]
本稿では,長いビデオの理解を深めるため,階層型イベントベースメモリ拡張LDM(HEM-LLM)を提案する。
まず,複数のイベントを長いビデオ内に分割する適応シーケンスセグメンテーション方式を設計する。
第2に、現在のイベントをモデル化しながら、ビデオ内の長期的相互依存関係を強化するために、前回のイベントに関する情報を圧縮し、注入する。
論文 参考訳(メタデータ) (2024-09-10T07:53:10Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。