論文の概要: TempCompass: Do Video LLMs Really Understand Videos?
- arxiv url: http://arxiv.org/abs/2403.00476v2
- Date: Sun, 17 Mar 2024 07:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 01:41:04.696408
- Title: TempCompass: Do Video LLMs Really Understand Videos?
- Title(参考訳): TempCompass:ビデオのLLMは本当にビデオの理解度が高いか?
- Authors: Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou,
- Abstract要約: 既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
時間的側面とタスクフォーマットの多様性を導入した textbfTemp ベンチマークを提案する。
我々は,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを評価し,これらのモデルが時間知覚能力に劣ることを示す。
- 参考スコア(独自算出の注目度): 36.28973015469766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. The data and evaluation code are available at https://github.com/llyx97/TempCompass.
- Abstract(参考訳): 近年,ビデオ大言語モデル(ビデオLLM)に関する関心が高まっている。
しかし、既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
一方、それらの多くは、異なる時間的側面(例えば、速度、方向)を区別することができず、そのため、これらの特定の側面におけるニュアンスドのパフォーマンスを反映できない。
一方、タスク形式(例えば、複数選択QAのみ)の多様性に制限があり、時間的知覚性能がタスクの種類によってどのように異なるかを理解するのを妨げている。
これら2つの問題に触発されて,時間的側面とタスク形式を多様に導入する,textbf{TempCompass} ベンチマークを提案する。
高品質なテストデータを集めるためには,(1)ビデオコレクションにおいて,同一の静的コンテンツを共有するが,特定の時間的側面で異なるコンフリクトのあるビデオを構築することで,ビデオLLMが単一フレームバイアスや言語優先の活用を妨げている,という2つの新しい戦略を考案する。
2)タスク命令を収集するために,人間がまずビデオのメタ情報にアノテートし,次にLCMが命令を生成するパラダイムを提案する。
また、ビデオLLMからの応答を自動的かつ正確に評価するLLMベースのアプローチを設計する。
TempCompassをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。
データと評価コードはhttps://github.com/llyx97/TempCompass.comで公開されている。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - LLM4VG: Large Language Models Evaluation for Video Grounding [45.94959878409729]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。
本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。
実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文 参考訳(メタデータ) (2023-12-21T08:15:02Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [64.83647588128146]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。