論文の概要: Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events
- arxiv url: http://arxiv.org/abs/2606.02522v1
- Date: Mon, 01 Jun 2026 17:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.538129
- Title: Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events
- Title(参考訳): モーメントビデオ:モーメント・ヴィジュアル・イベントにおけるビデオMLLMの時間的忠実度診断
- Authors: Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang, Yan Li, Xin Li, Haoyu Cao, Xing Sun, Shaofeng Zhang, Xu Yang, Zhihang Zhong, Xue Yang,
- Abstract要約: ビデオマルチモーダル大言語モデル(MLLM)は、一般的なビデオ理解と長大なビデオ理解を急速に進歩させてきたが、短い回答クリティカルな視覚的証拠を保存できる能力はいまだに未発見のままである。
本稿では,映像MLLMの時間的忠実度を時間的視覚的事象理解によって診断するためのベンチマークであるMoment-Videoを紹介する。
- 参考スコア(独自算出の注目度): 52.031070006859544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video multimodal large language models (MLLMs) have made rapid progress on general and long-form video understanding, yet their ability to preserve brief answer-critical visual evidence remains underexplored. Many practical questions are determined by momentary visual events: localized actions or state transitions that may last only a few frames. Such evidence can be skipped by sparse frame sampling, suppressed by visual-token compression, or diluted by coarse temporal aggregation, causing failures that language-side reasoning cannot reliably recover. We introduce Moment-Video, a benchmark for diagnosing the temporal fidelity of video MLLMs through momentary visual event understanding. Each question is grounded in a localized, visually observable, and sampling-sensitive event, requiring models to notice, count, describe, or reason about transient evidence rather than rely on persistent objects, global scene context, or language priors. Moment-Video contains 1,000 human-verified video-QA pairs across 7 domains and 25 fine-grained subcategories, covering four task types: Temporal Occurrence, Temporal Counting, Action Description, and Temporal Reasoning. We evaluate 33 proprietary and open-source MLLMs on Moment-Video. The best-performing model, Seed-2.0-Pro, achieves only 39.6% overall accuracy, while most open-source models remain below 25%, revealing a substantial gap in momentary visual event understanding. Diagnostic analyses show that denser frame sampling improves some models but does not eliminate the bottleneck, and longer videos introduce stronger temporal-localization challenges. These findings suggest that current video MLLMs still lack temporally faithful representations for capturing, preserving, and using brief but decisive visual evidence.
- Abstract(参考訳): ビデオマルチモーダル大言語モデル(MLLM)は、一般的なビデオ理解と長大なビデオ理解を急速に進歩させてきたが、短い回答クリティカルな視覚的証拠を保存できる能力はいまだに未発見のままである。
多くの実践的な質問は、局所化されたアクションや数フレームしか持たない状態遷移といった、一時的な視覚イベントによって決定される。
このような証拠はスパースフレームサンプリングや視覚的トーケン圧縮による抑制、あるいは粗い時間的アグリゲーションによって希釈され、言語側の推論が確実に回復できない失敗を引き起こす。
本稿では,映像MLLMの時間的忠実度を時間的視覚的事象理解によって診断するためのベンチマークであるMoment-Videoを紹介する。
各質問は、局所的で、視覚的に観察可能で、サンプリングに敏感なイベントに基礎を置いており、永続的なオブジェクト、グローバルなシーンコンテキスト、あるいは言語優先に依存するのではなく、一時的なエビデンスに注意、カウント、説明、あるいは理由をモデルに要求する。
Moment-Videoには、7つのドメインと25のきめ細かいサブカテゴリにまたがる、1,000の人間検証ビデオ-QAペアが含まれており、時間的発生、時間的カウント、アクション記述、時間的推論の4つのタスクタイプをカバーしている。
我々は、Moment-Video上で、33のプロプライエタリでオープンソースのMLLMを評価した。
最高のパフォーマンスモデルであるSeed-2.0-Proは全体の39.6%の精度しか達成していないが、ほとんどのオープンソースモデルは25%以下であり、瞬間的な視覚イベント理解において大きなギャップがあることを示している。
診断分析により、より高密度なフレームサンプリングはいくつかのモデルを改善するがボトルネックを排除せず、より長いビデオでは時間的局所化の課題がより強まることが示された。
これらの結果は、現在のビデオMLLMには、短いが決定的な視覚的証拠をキャプチャ、保存、使用するための時間的に忠実な表現がまだ欠けていることを示唆している。
関連論文リスト
- TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs [24.299498301173255]
TimeBlindは、詳細な時間的理解のための診断ベンチマークである。
我々は600のインスタンスで20以上の最先端MLLMを評価した。
最高のMLLMのインスタンス精度は48.2%に過ぎず、人間のパフォーマンス(98.2%)をはるかに下回っている。
論文 参考訳(メタデータ) (2026-01-30T20:21:46Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。