論文の概要: ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2505.23922v1
- Date: Thu, 29 May 2025 18:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.617638
- Title: ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding
- Title(参考訳): ScaleLong: 長時間ビデオ理解のためのマルチタイムベンチマーク
- Authors: David Ma, Huaqing Yuan, Xingjian Wang, Qianbo Zang, Tianci Liu, Xinyang He, Yanbin Wei, Jiawei Guo, Ni Jiahui, Zhenzhu Yang, Meng Cao, Shanghaoran Quan, Yizhi Li, Wangchunshu Zhou, Jiaheng Liu, Wenhao Huang, Ge Zhang, Shiwen Ni, Xiaojie Jin,
- Abstract要約: 階層的な4つの時間尺度を対象とする質問を埋め込むことで、因子をアンタングルする最初のベンチマークであるScaleLongを紹介する。
ScaleLongには、5つの主要なカテゴリと36のサブカテゴリの269の長いビデオがあり、慎重に設計された4~8の質問がある。
23個のMLLMを評価すると、U字型のパフォーマンス曲線が示され、最も短くて長い時間スケールで精度が高く、中間レベルでは薄くなる。
- 参考スコア(独自算出の注目度): 45.9893097521325
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although long-video understanding demands that models capture hierarchical temporal information -- from clip (seconds) and shot (tens of seconds) to event (minutes) and story (hours) -- existing benchmarks either neglect this multi-scale design or scatter scale-specific questions across different videos, preventing direct comparison of model performance across timescales on the same content. To address this, we introduce ScaleLong, the first benchmark to disentangle these factors by embedding questions targeting four hierarchical timescales -- clip (seconds), shot (tens of seconds), event (minutes), and story (hours) -- all within the same video content. This within-content multi-timescale questioning design enables direct comparison of model performance across timescales on identical videos. ScaleLong features 269 long videos (avg.\ 86\,min) from 5 main categories and 36 sub-categories, with 4--8 carefully designed questions, including at least one question for each timescale. Evaluating 23 MLLMs reveals a U-shaped performance curve, with higher accuracy at the shortest and longest timescales and a dip at intermediate levels. Furthermore, ablation studies show that increased visual token capacity consistently enhances reasoning across all timescales. ScaleLong offers a fine-grained, multi-timescale benchmark for advancing MLLM capabilities in long-video understanding. The code and dataset are available https://github.com/multimodal-art-projection/ScaleLong.
- Abstract(参考訳): 長いビデオ理解では、モデルが階層的な時間情報(クリップ(秒)やショット(数秒)からイベント(分)、ストーリー(時間)まで)をキャプチャすることを要求するが、既存のベンチマークでは、このマルチスケールの設計を無視したり、異なるビデオにスケール固有の質問を散在させたりすることで、同じコンテンツ上のタイムスケールでモデルパフォーマンスを直接比較するのを防ぐことができる。
これを解決するために、私たちは、これらの要因を解消する最初のベンチマークであるScaleLongを紹介した。これは、4つの階層的な時間スケール – クリップ(秒)、ショット(秒)、イベント(分)、ストーリー(時間) – を、すべて同じビデオコンテンツ内に埋め込むことによって、これらの要因を解消する。
このイントラコンテント内のマルチタイムスケール質問設計により、同一ビデオ上でのタイムスケール間のモデル性能を直接比較することができる。
ScaleLongには269の長編ビデオがある。
86\,min)は5つの主要なカテゴリと36のサブカテゴリから作成され、各タイムスケール毎に少なくとも1つの質問を含む4~8の慎重に設計された質問がある。
23個のMLLMを評価すると、U字型のパフォーマンス曲線が示され、最短および最長のタイムスケールでの精度が向上し、中間レベルでのディップが低下する。
さらに、アブレーション研究により、視覚的トークン能力の増大は全ての時間スケールにおける推論を継続的に強化することが示された。
ScaleLongは、長時間の理解においてMLLM能力を向上するための、きめ細かいマルチスケールのベンチマークを提供する。
コードとデータセットはhttps://github.com/multimodal-art-projection/ScaleLongで公開されている。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [20.184894298462652]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Long Movie Clip Classification with State-Space Video Models [14.46525612314649]
ViS4merは、自己アテンションと構造化状態空間シーケンス(S4)の強度を組み合わせた効率的な長距離ビデオモデルである。
本モデルでは,短距離時空間特徴抽出のための標準トランスフォーマーエンコーダと,その後の長距離時空間推論のためのマルチスケール時空間S4デコーダを用いる。
ViS4merは2.63倍高速で、それに対応する純粋な自己保持型モデルよりも8ドル安いメモリを必要とする。
論文 参考訳(メタデータ) (2022-04-04T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。