Fugu-MT 論文翻訳(概要): Question-Answering Dense Video Events

論文の概要: Question-Answering Dense Video Events

arxiv url: http://arxiv.org/abs/2409.04388v1
Date: Fri, 6 Sep 2024 16:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 15:14:50.315240
Title: Question-Answering Dense Video Events
Title（参考訳）: 質問応答型高精細ビデオイベント
Authors: Hangyu Qin, Junbin Xiao, Angela Yao,
Abstract要約: 質問応答型高精細ビデオイベントを提示する。これは長いビデオにおいて、高精細な疑問に答え、根拠付けることを必要とする新しいタスクである。改良のために,階層型キャプションモジュール,時間的イベントメモリモジュール,自己整合性チェックモジュールを強調表示する,トレーニング不要なMLLMアプローチであるDeViを提案する。実験によると、DeViは密集した質問に答え、関連するビデオの瞬間をグラウンド化するのに優れている。
参考スコア（独自算出の注目度）: 45.12146439217555
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have shown excellent performance in question-answering of single-event videos. In this paper, we present question-answering dense video events, a novel task that requires answering and grounding the dense-event questions in long videos, thus challenging MLLMs to faithfully comprehend and reason about multiple events occurring over extended time periods. To facilitate the study, we construct DeVE-QA - a dataset featuring 78K questions about 26K events on 10.6K long videos. We then benchmark and show that existing MLLMs excelling at single-event QA struggle to perform well in DeVE-QA. For improvement, we propose DeVi, a novel training-free MLLM approach that highlights a hierarchical captioning module, a temporal event memory module, and a self-consistency checking module to respectively detect, contextualize and memorize, and ground dense-events in long videos for question answering. Extensive experiments show that DeVi is superior at answering dense-event questions and grounding relevant video moments. Compared with existing MLLMs, it achieves a remarkable increase of 4.1 percent and 3.7 percent for G(round)QA accuracy on DeVE-QA and NExT-GQA respectively.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は,単一イベントビデオの質問応答において優れた性能を示した。本稿では,長時間にわたる複数の事象を忠実に理解し,原因を解明するためにMLLMに挑戦する。この研究を容易にするために、DeVE-QA - 10.6Kの長ビデオ上での26Kイベントに関する78Kの質問を含むデータセットを構築した。次に、DVE-QAにおいて、シングルイベントのQAにおいて優れた既存のMLLMが、よく機能するのに苦労していることをベンチマークし、示す。改良のために,階層型キャプションモジュール,時間的イベントメモリモジュール,自己整合性チェックモジュールを強調表示した新しい学習自由MLLM手法であるDeViを提案する。大規模な実験では、DeViは密集した質問に答え、関連するビデオの瞬間をグラウンド化するのに優れていることが示されている。既存のMLLMと比較して、DeVE-QA と NExT-GQA でそれぞれ G(round)QA の精度が4.1%、G(round)QA が3.7%向上している。

関連論文リスト

MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment [14.705190484805962]
ビデオ品質アセスメント(VQA)は、事前トレーニングで使用する大規模データセットから高品質なビデオを選択する上で、ますます重要になっている。 MVQA-68Kは68,000以上の注意深い注釈付きビデオからなる新しい多次元VQAデータセットである。実験により、MVQA-68KはVQAタスクにおける様々な大規模言語モデル(MLLM)の性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-09-15T05:16:54Z)
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。 MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
FriendsQA: A New Large-Scale Deep Video Understanding Dataset with Fine-grained Topic Categorization for Story Videos [27.546069308499867]
我々は,大規模DVUデータセットを自動的に生成するために,大規模言語モデルに基づくマルチエージェントコラボレーションフレームワークであるStoryMindを考案した。データセットであるFriendsQAは、平均1,358秒のSitecom Friendsから派生したものだ。我々は、FriendsQAデータセットを用いて、10の最先端ビデオQAモデルに関する包括的な実験を行う。
論文参考訳（メタデータ） (2024-12-22T13:55:44Z)
Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark [64.16672247204997]
我々は、IEEE/CVF European Conference on Computer Vision (ECCV) 2024と共に半日間のワークショップとして、第2知覚テストチャレンジを組織した。目標は、最先端のビデオモデルをベンチマークし、昨年からPerception Testベンチマークを使用して進捗を計測することだった。今年は7つのトラックがあり、低レベルかつ高レベルなタスクをカバーし、ビデオ、オーディオ、テキストのモダリティをカバーした言語と非言語インターフェースを備えていた。追加のトラックは1時間にわたるビデオ理解をカバーし、新しいビデオQAベンチマーク1h-walk VQAを導入した。
論文参考訳（メタデータ） (2024-11-29T18:57:25Z)
Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。 NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2024-10-01T15:07:07Z)
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-09-26T17:53:04Z)
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。 MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文参考訳（メタデータ） (2024-09-18T18:40:02Z)
VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文参考訳（メタデータ） (2024-08-08T05:14:07Z)
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-19T14:21:46Z)
A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文参考訳（メタデータ） (2023-12-28T18:58:01Z)
Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。 NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文参考訳（メタデータ） (2023-09-04T03:06:04Z)
Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文参考訳（メタデータ） (2022-08-01T15:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。