論文の概要: LVBench: An Extreme Long Video Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2406.08035v1
- Date: Wed, 12 Jun 2024 09:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:34:43.176924
- Title: LVBench: An Extreme Long Video Understanding Benchmark
- Title(参考訳): LVBench:極端に長いビデオ理解ベンチマーク
- Authors: Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang,
- Abstract要約: LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
- 参考スコア(独自算出の注目度): 37.22510741049044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in multimodal large language models has markedly enhanced the understanding of short videos (typically under one minute), and several evaluation datasets have emerged accordingly. However, these advancements fall short of meeting the demands of real-world applications such as embodied intelligence for long-term decision-making, in-depth movie reviews and discussions, and live sports commentary, all of which require comprehension of long videos spanning several hours. To address this gap, we introduce LVBench, a benchmark specifically designed for long video understanding. Our dataset comprises publicly sourced videos and encompasses a diverse set of tasks aimed at long video comprehension and information extraction. LVBench is designed to challenge multimodal models to demonstrate long-term memory and extended comprehension capabilities. Our extensive evaluations reveal that current multimodal models still underperform on these demanding long video understanding tasks. Through LVBench, we aim to spur the development of more advanced models capable of tackling the complexities of long video comprehension. Our data and code are publicly available at: https://lvbench.github.io.
- Abstract(参考訳): マルチモーダルな大言語モデルの最近の進歩は、ショートビデオ(典型的には1分以内)の理解を著しく向上させ、その結果、いくつかの評価データセットが出現した。
しかし、これらの進歩は、長期的な意思決定のための具体的インテリジェンス、詳細な映画レビューや議論、ライブスポーツ解説といった現実的な応用の要求を満たすには足りていない。
このギャップに対処するために、長いビデオ理解に特化したベンチマークであるLVBenchを紹介する。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
LVBenchは、長期記憶と拡張理解能力を実証するために、マルチモーダルモデルに挑戦するように設計されている。
我々の広範な評価により、現在のマルチモーダルモデルは、これらの要求の長いビデオ理解タスクにおいて、まだ性能が劣っていることが明らかとなった。
LVBenchを通じて、長いビデオ理解の複雑さに対処できる、より高度なモデルの開発を促進することを目的としている。
私たちのデータとコードは、https://lvbench.github.io.comで公開されています。
関連論文リスト
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs [20.168429351519055]
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
VideoNIAHは、関連のない画像/テキスト 'needles' をオリジナルビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。
アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [58.08209212057164]
現在のロングフォームビデオ理解のためのデータセットは、真のロングフォーム理解の課題を提供するのに足りていないことが多い。
我々は、CinePileという新しいデータセットとベンチマークを提示する。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Understanding Long Videos in One Multimodal Language Model Pass [44.78900245769057]
LLM(Large Language Models)は、世界の知識を強く認識することで知られる。
自己回帰 LLM における高速な推論を実現する手法である Likelihood Selection を提案する。
得られたMultimodal Video Understandingフレームワークは、長ビデオおよびきめ細かいアクション認識ベンチマークにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。