論文の概要: Towards Fine-Grained Video Question Answering
- arxiv url: http://arxiv.org/abs/2503.06820v1
- Date: Mon, 10 Mar 2025 01:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:02.816849
- Title: Towards Fine-Grained Video Question Answering
- Title(参考訳): きめ細かいビデオ質問応答に向けて
- Authors: Wei Dai, Alan Luo, Zane Durante, Debadutta Dash, Arnold Milstein, Kevin Schulman, Ehsan Adeli, Li Fei-Fei,
- Abstract要約: 本稿では,MOMA-QAデータセットについて述べる。
地上の真実のシーングラフと時間間隔アノテーションにより、MOMA-QAはきめ細かいビデオ理解のためのモデルを開発するのに最適である。
本稿では、シーングラフ予測器、効率的なフレーム検索器、時間的局所化と微粒化の関係理解のための事前学習された大規模言語モデルを含む、新しいビデオ言語モデルSGVLMを提案する。
- 参考スコア(独自算出の注目度): 17.582244704442747
- License:
- Abstract: In the rapidly evolving domain of video understanding, Video Question Answering (VideoQA) remains a focal point. However, existing datasets exhibit gaps in temporal and spatial granularity, which consequently limits the capabilities of existing VideoQA methods. This paper introduces the Multi-Object Multi-Actor Question Answering (MOMA-QA) dataset, which is designed to address these shortcomings by emphasizing temporal localization, spatial relationship reasoning, and entity-centric queries. With ground truth scene graphs and temporal interval annotations, MOMA-QA is ideal for developing models for fine-grained video understanding. Furthermore, we present a novel video-language model, SGVLM, which incorporates a scene graph predictor, an efficient frame retriever, and a pre-trained large language model for temporal localization and fine-grained relationship understanding. Evaluations on MOMA-QA and other public datasets demonstrate the superior performance of our model, setting new benchmarks for VideoQA.
- Abstract(参考訳): ビデオ理解の急速に発展する領域では、ビデオ質問回答(Video Question Answering, VideoQA)が焦点となっている。
しかし、既存のデータセットは時間的および空間的粒度のギャップを示しており、結果として既存のVideoQAメソッドの能力を制限している。
本稿では、時間的局所化、空間的関係推論、エンティティ中心のクエリを強調することで、これらの欠点に対処するMOMA-QAデータセットを提案する。
地上の真実のシーングラフと時間間隔アノテーションにより、MOMA-QAはきめ細かいビデオ理解のためのモデルを開発するのに最適である。
さらに、シーングラフ予測器、効率的なフレーム検索器、時間的ローカライゼーションと微粒な関係理解のための事前学習された大規模言語モデルを含む、新しいビデオ言語モデルSGVLMを提案する。
MOMA-QAや他の公開データセットの評価は、私たちのモデルの優れた性能を示し、ビデオQAの新しいベンチマークを設定します。
関連論文リスト
- TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Localizing Events in Videos with Multimodal Queries [61.20556229245365]
セマンティッククエリに基づくビデオ内のイベントのローカライズは、ビデオ理解における重要なタスクである。
マルチモーダルクエリでビデオ中のイベントをローカライズするための新しいベンチマークであるICQを紹介する。
疑似MQs戦略における3つのマルチモーダルクエリ適応法と新しいサロゲートファインタニングを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。