論文の概要: Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal
Models for Video Question Answering
- arxiv url: http://arxiv.org/abs/2401.10711v1
- Date: Fri, 19 Jan 2024 14:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:58:48.862427
- Title: Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal
Models for Video Question Answering
- Title(参考訳): ビデオ質問応答のための大規模マルチモーダルモデルによる弱教師付きガウスコントラストグラウンド
- Authors: Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge
- Abstract要約: Video Question Answering (VideoQA)は、ビデオで見られる情報に基づいて自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.28396479266875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA) aims to answer natural language questions
based on the information observed in videos. Despite the recent success of
Large Multimodal Models (LMMs) in image-language understanding and reasoning,
they deal with VideoQA insufficiently by simply taking uniformly sampled frames
as visual inputs, which ignores question-relevant visual clues. Moreover, there
are no human annotations for question-critical timestamps in existing VideoQA
datasets. In light of this, we propose a novel weakly supervised framework to
enforce the LMMs to reason out the answers with question-critical moments as
visual inputs. Specifically, we fuse the question and answer pairs as event
descriptions to find multiple keyframes as target moments, which will be
pseudo-labels. With these pseudo-labels as additionally weak supervision, we
devise a lightweight Gaussian-based Contrastive Grounding (GCG) module. GCG
learns multiple Gaussian functions to characterize the temporal structure of
the video, and sample question-critical frames as positive moments to be the
visual inputs of LMMs. Extensive experiments on several VideoQA benchmarks
verify the effectiveness of our framework, and we achieve substantial
improvements compared to previous state-of-the-art methods.
- Abstract(参考訳): Video Question Answering (VideoQA)は、ビデオで見られる情報に基づいて自然言語の質問に答えることを目的としている。
画像言語理解と推論におけるLMM(Large Multimodal Models)の成功にもかかわらず、ビデオQAは、一様にサンプリングされたフレームを視覚入力として扱うだけでは不十分である。
さらに、既存のVideoQAデータセットには、質問クリティカルなタイムスタンプに対する人間のアノテーションはありません。
そこで本研究では,視覚的入力として質問クリティカルモーメントによる回答を推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
具体的には、質問と回答のペアをイベント記述として融合して、複数のキーフレームをターゲットモーメントとして見つける。
これらの擬似ラベルを弱監督として,軽量なガウス型コントラストグラウンド(GCG)モジュールを考案した。
GCGはビデオの時間構造を特徴付けるために複数のガウス関数を学習し、LMMの視覚的入力である正のモーメントとして質問クリティカルフレームをサンプリングする。
いくつかのビデオQAベンチマークにおいて、我々のフレームワークの有効性を検証し、従来の最先端手法と比較して大幅に改善した。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。