論文の概要: RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models
- arxiv url: http://arxiv.org/abs/2505.19125v1
- Date: Sun, 25 May 2025 12:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.923848
- Title: RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models
- Title(参考訳): RTime-QA: 大規模マルチモーダルモデルにおける原子時間事象理解のためのベンチマーク
- Authors: Yuqi Liu, Qin Jin, Tianyuan Qu, Xuan Liu, Yang Du, Bei Yu, Jiaya Jia,
- Abstract要約: 大規模マルチモーダルモデル(LMM)の原子時間事象理解能力を評価するための新しいベンチマークRTime-QAを紹介する。
RTime-QAは822の高品質で慎重に編集されたビデオテキストの質問で構成されており、それぞれが人間の専門家によって慎重に注釈付けされている。
LMMの時間的事象理解能力を向上するために、RTime-QAと同様のアノテーションプロセスを利用する14k命令チューニングデータセットであるRTime-ITを導入する。
- 参考スコア(独自算出の注目度): 85.59909303288921
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Understanding accurate atomic temporal event is essential for video comprehension. However, current video-language benchmarks often fall short to evaluate Large Multi-modal Models' (LMMs) temporal event understanding capabilities, as they can be effectively addressed using image-language models. In this paper, we introduce RTime-QA, a novel benchmark specifically designed to assess the atomic temporal event understanding ability of LMMs. RTime-QA comprises 822 high-quality, carefully-curated video-text questions, each meticulously annotated by human experts. Each question features a video depicting an atomic temporal event, paired with both correct answers and temporal negative descriptions, specifically designed to evaluate temporal understanding. To advance LMMs' temporal event understanding ability, we further introduce RTime-IT, a 14k instruction-tuning dataset that employs a similar annotation process as RTime-QA. Extensive experimental analysis demonstrates that RTime-QA presents a significant challenge for LMMs: the state-of-the-art model Qwen2-VL achieves only 34.6 on strict-ACC metric, substantially lagging behind human performance. Furthermore, our experiments reveal that RTime-IT effectively enhance LMMs' capacity in temporal understanding. By fine-tuning on RTime-IT, our Qwen2-VL achieves 65.9 on RTime-QA.
- Abstract(参考訳): 正確な原子時間事象を理解することは、ビデオ理解に不可欠である。
しかし、現在のビデオ言語ベンチマークでは、画像言語モデルを用いて効果的に対処できるため、LMM(Large Multi-modal Models)の時間的事象理解能力を評価できない場合が多い。
本稿では,LMMの時間的事象理解能力を評価するための新しいベンチマークRTime-QAを紹介する。
RTime-QAは822の高品質で慎重に編集されたビデオテキストの質問で構成されており、それぞれが人間の専門家によって慎重に注釈付けされている。
それぞれの質問は、時間的理解を評価するために特別に設計された、正しい回答と時間的ネガティブな記述の両方と組み合わせた、原子的時間的事象を描写したビデオが特徴である。
LMMの時間的事象理解能力を向上するために、RTime-QAと同様のアノテーションプロセスを利用する14k命令チューニングデータセットであるRTime-ITを導入する。
RTime-QAは、最先端のQwen2-VLが厳密なACC測定で34.6しか達成せず、人間のパフォーマンスにかなり遅れている。
さらに,RTime-ITは時間的理解においてLMMの能力を効果的に向上することを示した。
RTime-ITを微調整することで、Qwen2-VLはRTime-QAで65.9を達成する。
関連論文リスト
- Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。