Fugu-MT 論文翻訳(概要): TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

論文の概要: TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

arxiv url: http://arxiv.org/abs/2410.10818v2
Date: Tue, 15 Oct 2024 17:55:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 19:24:58.927395
Title: TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
Title（参考訳）: TemporalBench:マルチモーダルビデオモデルのための微粒な時間的理解のベンチマーク
Authors: Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang,
Abstract要約: TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
参考スコア（独自算出の注目度）: 75.42002690128486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding fine-grained temporal dynamics is crucial for multimodal video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for temporal understanding. In this paper, we introduce TemporalBench, a new benchmark dedicated to evaluating fine-grained temporal understanding in videos. TemporalBench consists of ~10K video question-answer pairs, derived from ~2K high-quality human annotations detailing the temporal dynamics in video clips. As a result, our benchmark provides a unique testbed for evaluating various temporal understanding and reasoning abilities such as action frequency, motion magnitude, event order, etc. Moreover, it enables evaluations on various tasks like both video question answering and captioning, both short and long video understanding, as well as different models such as multimodal video embedding models and text generation models. Results show that state-of-the-art models like GPT-4o achieve only 38.5% question answering accuracy on TemporalBench, demonstrating a significant gap (~30%) between humans and AI in temporal understanding. Furthermore, we notice a critical pitfall for multi-choice QA where LLMs can detect the subtle changes in negative captions and find a centralized description as a cue for its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such bias. We hope that TemporalBench can foster research on improving models' temporal reasoning capabilities. Both dataset and evaluation code will be made available.
Abstract（参考訳）: 微粒な時間的ダイナミクスを理解することは、マルチモーダルビデオの理解と生成に不可欠である。詳細な時間的アノテーションがないため、既存のビデオベンチマークは主に静的画像ベンチマークに似ており、時間的理解のためのモデルを評価する能力がない。本稿では,ビデオの微細な時間的理解を評価するためのベンチマークであるTemporalBenchを紹介する。テンポラルベンチは、ビデオクリップの時間的ダイナミクスを詳述した高品質な人間のアノテーションから、約10Kのビデオ質問応答ペアで構成されている。その結果,動作周波数,運動の大きさ,イベント順序などの時間的理解と推論能力を評価するためのユニークなテストベッドが得られた。さらに、ビデオ質問応答とキャプションの双方、短いビデオ理解と長いビデオ理解、マルチモーダルビデオ埋め込みモデルやテキスト生成モデルといった様々なタスクの評価を可能にする。 GPT-4oのような最先端のモデルはテンポラルベンチで38.5%の解答精度しか達成せず、時間的理解において人間とAIの間に有意なギャップ(~30%)があることが示されている。さらに,LLMが否定的キャプションの微妙な変化を検知し,その予測の手がかりとして集中的な記述を見出すことができるマルチチョイスQAの致命的な落とし穴に気づき,そのようなバイアスを正すためにMBA(Multiple Binary Accuracy)を提案する。我々は、TemporalBenchがモデルの時間的推論能力を改善する研究を促進することを願っている。データセットと評価コードの両方が利用可能になる。

関連論文リスト

TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs [24.299498301173255]
TimeBlindは、詳細な時間的理解のための診断ベンチマークである。我々は600のインスタンスで20以上の最先端MLLMを評価した。最高のMLLMのインスタンス精度は48.2%に過ぎず、人間のパフォーマンス(98.2%)をはるかに下回っている。
論文参考訳（メタデータ） (2026-01-30T20:21:46Z)
What Happens When: Learning Temporal Orders of Events in Videos [23.17822149091485]
Video Large Multimodal Models (VLMM) はビデオ理解において顕著な性能を示しているが、複数のイベントの時間順序を正確に把握する能力はいまだ探索されていない。本稿では,イベントの時間的順序を識別するモデルの能力を明確に評価するために,VECTORを提案する。本稿では,詳細なイベント・バイ・イベントの映像記述をモデルとしてトレーニングし,時間的意識を高めるために,推論時にチェーン・オブ・ソート・プロンプトを利用するMECOTを提案する。
論文参考訳（メタデータ） (2025-12-05T07:50:59Z)
HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos [26.97196583891564]
本稿では,高密度ダイナミックビデオの微粒化理解のための時間指向ベンチマークTUNAを紹介する。我々のTUNAは様々なビデオシナリオとダイナミックスを備えており、解釈可能で堅牢な評価基準によって支援されている。この評価は、アクション記述の制限、多目的理解の不十分、カメラモーションに対する感度の低下など、ビデオの時間的理解における重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-05-26T15:24:06Z)
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding? [27.128582163847]
ハイスコアがビデオのダイナミックコンテンツに対するより強力な理解を示すかどうかを曖昧にする2つの大きな制限を同定する。質問をLLM-Answerable、Semantic、Temporalの3つのドメインに分類する自動パイプラインであるVBenchCompを提案する。
論文参考訳（メタデータ） (2025-05-20T13:07:55Z)
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。 TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文参考訳（メタデータ） (2024-10-30T17:50:23Z)
TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文参考訳（メタデータ） (2024-10-10T09:28:36Z)
Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。 LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-10-08T16:10:29Z)
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。 10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文参考訳（メタデータ） (2024-06-26T17:50:47Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (2021-06-04T17:57:39Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。