論文の概要: TVBench: Redesigning Video-Language Evaluation
- arxiv url: http://arxiv.org/abs/2410.07752v2
- Date: Fri, 03 Jan 2025 11:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:41.198663
- Title: TVBench: Redesigning Video-Language Evaluation
- Title(参考訳): TVBench:ビデオランゲージ評価を再設計
- Authors: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano,
- Abstract要約: 現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
- 参考スコア(独自算出の注目度): 48.71203934876828
- License:
- Abstract: Large language models have demonstrated impressive performance when integrated with vision models even enabling video understanding. However, evaluating these video models presents its own unique challenges, for which several benchmarks have been proposed. In this paper, we show that the currently most used video-language benchmarks can be solved without requiring much temporal reasoning. We identified three main issues in existing datasets: (i) static information from single frames is often sufficient to solve the tasks (ii) the text of the questions and candidate answers is overly informative, allowing models to answer correctly without relying on any visual input (iii) world knowledge alone can answer many of the questions, making the benchmarks a test of knowledge replication rather than visual reasoning. In addition, we found that open-ended question-answering benchmarks for video understanding suffer from similar issues while the automatic evaluation process with LLMs is unreliable, making it an unsuitable alternative. As a solution, we propose TVBench, a novel open-source video multiple-choice question-answering benchmark, and demonstrate through extensive evaluations that it requires a high level of temporal understanding. Surprisingly, we find that most recent state-of-the-art video-language models perform similarly to random performance on TVBench, with only a few models such as Qwen2-VL, and Tarsier clearly surpassing this baseline.
- Abstract(参考訳): 大規模な言語モデルは、ビデオ理解を可能にするビジョンモデルと統合することで、印象的なパフォーマンスを示してきた。
しかし、これらのビデオモデルの評価には独自の課題があり、いくつかのベンチマークが提案されている。
本稿では,現在最も使われているビデオ言語ベンチマークを時間的推論を必要とせずに解くことができることを示す。
既存のデータセットの主な3つの問題を特定しました。
(i)単一フレームからの静的情報は、タスクを解くのに十分であることが多い
(二)質問文及び候補者回答の文章は過度に情報的であり、視覚的な入力に頼らずにモデルが正しく答えられるようにする。
(三)世界知識だけでは、多くの質問に答えることができ、ベンチマークを視覚的推論よりも知識複製のテストにする。
さらに,LLMによる自動評価プロセスは信頼性に欠ける上に,映像理解のためのオープンな質問応答ベンチマークも同様の問題に悩まされていることがわかった。
提案手法として, 提案するTVBenchは, 高レベルの時間的理解を必要とすることを広く評価し, 提案手法を提案する。
驚いたことに、最新の最先端のビデオ言語モデルはTVBenchのランダムなパフォーマンスと同じようなパフォーマンスを示しており、Qwen2-VLやTarsierは明らかにこのベースラインを上回っている。
関連論文リスト
- CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。
14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。
このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文 参考訳(メタデータ) (2024-12-16T18:46:45Z) - Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering [13.294004180200496]
我々は,マルチモーダルな知識をよりよく統合する3つの主要なイノベーションを取り入れたローカル・グローバル質問意識ビデオ埋め込み(LGQAVE)を紹介した。
LGQAVEは、質問に関する最も関連性の高いフレームを正確に識別するクロスアテンション機構を利用することで、従来のアドホックフレームサンプリングを越えている。
追加のクロスアテンションモジュールは、これらのローカルおよびグローバルな埋め込みを統合して、最終ビデオ埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-12T12:39:07Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。