論文の概要: TempCompass: Do Video LLMs Really Understand Videos?
- arxiv url: http://arxiv.org/abs/2403.00476v3
- Date: Mon, 3 Jun 2024 04:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:18:27.151564
- Title: TempCompass: Do Video LLMs Really Understand Videos?
- Title(参考訳): TempCompass:ビデオのLLMは本当にビデオの理解度が高いか?
- Authors: Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou,
- Abstract要約: 既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 36.28973015469766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. Our data will be available at https://github.com/llyx97/TempCompass.
- Abstract(参考訳): 近年,ビデオ大言語モデル(ビデオLLM)に関する関心が高まっている。
しかし、既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
一方、それらの多くは、異なる時間的側面(例えば、速度、方向)を区別することができず、そのため、これらの特定の側面におけるニュアンスドのパフォーマンスを反映できない。
一方、タスク形式(例えば、複数選択QAのみ)の多様性に制限があり、時間的知覚性能がタスクの種類によってどのように異なるかを理解するのを妨げている。
これら2つの問題に触発されて,時間的側面とタスク形式を多様に導入する,textbf{TempCompass} ベンチマークを提案する。
高品質なテストデータを集めるためには,(1)ビデオコレクションにおいて,同一の静的コンテンツを共有するが,特定の時間的側面で異なるコンフリクトのあるビデオを構築することで,ビデオLLMが単一フレームバイアスや言語優先の活用を妨げている,という2つの新しい戦略を考案する。
2)タスク命令を収集するために,人間がまずビデオのメタ情報にアノテートし,次にLCMが命令を生成するパラダイムを提案する。
また、ビデオLLMからの応答を自動的かつ正確に評価するLLMベースのアプローチを設計する。
TempCompassをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。
私たちのデータはhttps://github.com/llyx97/TempCompass.comで公開されます。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:21:29Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - LLM4VG: Large Language Models Evaluation for Video Grounding [39.40610479454726]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。
本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。
実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文 参考訳(メタデータ) (2023-12-21T08:15:02Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。