Fugu-MT 論文翻訳(概要): TempCompass: Do Video LLMs Really Understand Videos?

論文の概要: TempCompass: Do Video LLMs Really Understand Videos?

arxiv url: http://arxiv.org/abs/2403.00476v3
Date: Mon, 3 Jun 2024 04:13:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 16:18:27.151564
Title: TempCompass: Do Video LLMs Really Understand Videos?
Title（参考訳）: TempCompass:ビデオのLLMは本当にビデオの理解度が高いか?
Authors: Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, Lu Hou,
Abstract要約: 既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
参考スコア（独自算出の注目度）: 36.28973015469766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. Our data will be available at https://github.com/llyx97/TempCompass.
Abstract（参考訳）: 近年,ビデオ大言語モデル(ビデオLLM)に関する関心が高まっている。しかし、既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。一方、それらの多くは、異なる時間的側面(例えば、速度、方向)を区別することができず、そのため、これらの特定の側面におけるニュアンスドのパフォーマンスを反映できない。一方、タスク形式(例えば、複数選択QAのみ)の多様性に制限があり、時間的知覚性能がタスクの種類によってどのように異なるかを理解するのを妨げている。これら2つの問題に触発されて,時間的側面とタスク形式を多様に導入する,textbf{TempCompass} ベンチマークを提案する。高品質なテストデータを集めるためには,(1)ビデオコレクションにおいて,同一の静的コンテンツを共有するが,特定の時間的側面で異なるコンフリクトのあるビデオを構築することで,ビデオLLMが単一フレームバイアスや言語優先の活用を妨げている,という2つの新しい戦略を考案する。 2)タスク命令を収集するために,人間がまずビデオのメタ情報にアノテートし,次にLCMが命令を生成するパラダイムを提案する。また、ビデオLLMからの応答を自動的かつ正確に評価するLLMベースのアプローチを設計する。 TempCompassをベースとして,8つの最先端(SOTA)ビデオLLMと3つの画像LLMを総合的に評価し,これらのモデルが時間知覚能力に劣ることを示す。私たちのデータはhttps://github.com/llyx97/TempCompass.comで公開されます。

関連論文リスト

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文参考訳（メタデータ） (2025-06-07T21:32:19Z)
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding? [27.128582163847]
ハイスコアがビデオのダイナミックコンテンツに対するより強力な理解を示すかどうかを曖昧にする2つの大きな制限を同定する。質問をLLM-Answerable、Semantic、Temporalの3つのドメインに分類する自動パイプラインであるVBenchCompを提案する。
論文参考訳（メタデータ） (2025-05-20T13:07:55Z)
VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs [37.52094200472755]
本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
論文参考訳（メタデータ） (2025-02-23T15:04:23Z)
MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。 MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。 $textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文参考訳（メタデータ） (2024-12-23T15:13:56Z)
Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。 LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文参考訳（メタデータ） (2024-12-18T13:38:06Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文参考訳（メタデータ） (2024-10-08T06:21:29Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
LLM4VG: Large Language Models Evaluation for Video Grounding [39.40610479454726]
本稿では,ビデオグラウンド処理における異なるLLMの性能を体系的に評価する。本稿では,VGの命令と異なる種類のジェネレータからの記述を統合するためのプロンプト手法を提案する。実験結果から,既存のVidLLMはビデオグラウンディング性能の達成にはまだ程遠いが,これらのモデルをさらに微調整するためには,より時間的なビデオタスクを含めるべきである,という結論が得られた。
論文参考訳（メタデータ） (2023-12-21T08:15:02Z)
VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。ビデオLLMはビデオ全体の粗い記述しか提供できない。微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文参考訳（メタデータ） (2023-11-30T10:49:56Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。