論文の概要: Unleashing Hour-Scale Video Training for Long Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2506.05332v1
- Date: Thu, 05 Jun 2025 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.896371
- Title: Unleashing Hour-Scale Video Training for Long Video-Language Understanding
- Title(参考訳): 長時間ビデオ言語理解のための時間外ビデオトレーニング
- Authors: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum,
- Abstract要約: 本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。
このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。
時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
- 参考スコア(独自算出の注目度): 61.717205915329664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
- Abstract(参考訳): 最近の長文ビデオ言語理解ベンチマークは、ビデオ大マルチモーダルモデル(ビデオ-LMM)の進歩を推し進めている。
しかし、注釈の付いた長いビデオの不足は、1時間にわたるビデオ-LLMのトレーニングを過小評価している。
このギャップを埋めるために、大規模な時間長ビデオインストラクションフォローデータセットであるVideoMarathonを紹介する。
このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。
具体的には、3.3Mの高品質QAペアを含み、時間性、空間性、オブジェクト、アクション、シーン、イベントの6つの基本トピックにまたがる。
既存のビデオインストラクションデータセットと比較して、VideoMarathonはトレーニングビデオの長さを最大1時間まで大幅に延長し、短期ビデオと長期ビデオの理解を必要とする22のタスクをサポートする。
時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
キャッシュされたフルビデオコンテキストからユーザ質問関連および時空間情報セマンティクスを適応的に統合するメモリ拡張モジュールを活用することで、1-FPSサンプリングで1時間にわたるビデオトレーニングと推論を可能にする。
実験では,Hour-LLaVAが複数のビデオ言語ベンチマークで最高の性能を達成し,ビデオマラソンデータセットの高品質さとHour-LLaVAモデルの優位性を実証した。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [20.184894298462652]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。