Fugu-MT 論文翻訳(概要): LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering

論文の概要: LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering

arxiv url: http://arxiv.org/abs/2312.04817v2
Date: Mon, 01 Sep 2025 05:09:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-03 20:08:26.085188
Title: LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering
Title（参考訳）: LvBench:Versatile Multi-modal Question Answeringによる長文ビデオ理解のためのベンチマーク
Authors: Hongjie Zhang, Lu Dong, Yi Liu, Yifei Huang, Yali Wang, Limin Wang, Yu Qiao,
Abstract要約: LvBenchは多目的なマルチモーダル質問応答のための長文ビデオ理解ベンチマークである。ビデオは70秒から4時間で、シングルシーン、マルチシーン、フルシーンのコンテキストをカバーしています。本データセットは、慎重に選択された100本の映画から得られた20,061組の質問応答対からなる。
参考スコア（独自算出の注目度）: 49.68215536040896
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite remarkable recent progress, existing long-form VideoQA datasets fall short of meeting the criteria for genuine long-form video understanding. This is primarily due to the use of short videos for question curation, and the reliance on limited-length sub-clips as clues to answer those questions. Meanwhile, previous datasets have limited focus on question type and modality. To remedy this, we introduce LvBench, a Long-form video understanding benchmark for versatile multi-modal question-answering. Our LvBench stands out from existing long-form VideoQA datasets through three key characteristics: 1) Extended temporal durations: We consider videos ranging from 70 seconds to 4 hours, covering single-scene, multi-scene, and full-scene contexts. This design accounts for both video and clue lengths, capturing diverse contextual dynamics. 2) Diverse question types and modalities: LvBench introduces six distinct question types that evaluate various perceptual and cognitive capabilities, utilizing both video frames and subtitles. 3) High-quality annotations: We employ rigorous manual labeling by human annotators. Our dataset comprises 20,061 question-answer pairs sourced from 100 carefully selected movies across diverse genres, annotated collaboratively by multiple individuals. Analysis involving various baselines reveals a consistent trend: the performance of all existing methods significantly deteriorates when video and clue length increases. We expect LvBench to serve as a valuable resource for future works on long-form video understanding.
Abstract（参考訳）: 最近の顕著な進歩にもかかわらず、既存のロングフォームビデオQAデータセットは真のロングフォームビデオ理解の基準を満たしていない。これは主に、質問キュレーションのための短いビデオの使用と、これらの質問に答える手がかりとして、限られた長さのサブクリップに依存しているためである。一方、以前のデータセットは質問の種類とモダリティに限定している。そこで我々はLvBenchを紹介した。LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBe nch,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench,LvBench 我々のLvBenchは、以下の3つの重要な特徴を通して、既存の長文ビデオQAデータセットから際立っている。 1)時間長の延長:70秒から4時間までの映像を,単シーン,複数シーン,フルシーンのコンテキストを対象とする。このデザインは、ビデオ長と手がかり長の両方を考慮し、多様なコンテキストダイナミクスをキャプチャする。 2)多様な質問タイプとモダリティ:LvBenchはビデオフレームとサブタイトルの両方を利用して,様々な知覚的・認知的能力を評価する6つの異なる質問タイプを導入している。 3) 高品質アノテーション: 人間のアノテーションによる厳密な手によるラベル付け。本データセットは,多種多様なジャンルにまたがって慎重に選択された100本の映画から抽出した20,061本の質問応答対からなる。全ての既存手法の性能はビデオや手がかりの長さが大きくなると著しく低下する。 LvBenchは今後、ビデオの長期的な理解のための貴重なリソースになるだろう。

関連論文リスト

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文参考訳（メタデータ） (2025-08-06T13:03:21Z)
Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文参考訳（メタデータ） (2025-07-11T23:07:04Z)
Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought [19.792159494513424]
ビデオ理解は、ビデオ分析からインタラクティブシステムまで、様々な用途に不可欠である。視覚言語モデルの発展にもかかわらず、これらのモデルはしばしば、微妙で時間的な詳細を捉えるのに苦労する。これを解決するために、ビデオ理解を強化するために設計された画期的なデータセットであるVideo-Thoughtを紹介した。
論文参考訳（メタデータ） (2025-06-10T14:08:56Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文参考訳（メタデータ） (2025-02-17T12:40:35Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。 2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文参考訳（メタデータ） (2024-09-30T08:05:00Z)
LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文参考訳（メタデータ） (2024-06-12T09:36:52Z)
CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文参考訳（メタデータ） (2024-05-14T17:59:02Z)
Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文参考訳（メタデータ） (2023-10-19T13:26:02Z)
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。 MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文参考訳（メタデータ） (2022-12-19T15:05:40Z)
Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文参考訳（メタデータ） (2022-03-02T16:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。