論文の概要: LongVILA: Scaling Long-Context Visual Language Models for Long Videos
- arxiv url: http://arxiv.org/abs/2408.10188v4
- Date: Mon, 21 Oct 2024 08:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:58.227945
- Title: LongVILA: Scaling Long-Context Visual Language Models for Long Videos
- Title(参考訳): LongVILA:ロングビデオのためのロングコンテキストビジュアル言語モデルのスケーリング
- Authors: Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han,
- Abstract要約: LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
長文マルチモーダルシーケンス並列処理(MM-SP)システムを導入し,長文ビデオトレーニングと推論を効率的に並列化する。
LongVILA は VILA の動画フレーム数を 8 から 2048 に効率的に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 に改善し、6,000 フレーム (100 万枚以上のトークン) のビデオニードル・イン・ア・ヘイスタックで 99.8% の精度を実現した。
- 参考スコア(独自算出の注目度): 86.28679075537089
- License:
- Abstract: Long-context capability is critical for multi-modal foundation models, especially for long video understanding. We introduce LongVILA, a full-stack solution for long-context visual-language models \qinghao{by co-designing the algorithm and system. For model training, we upgrade existing VLMs to support long video understanding by incorporating two additional stages, {\em i.e.}, long context extension and long video supervised fine-tuning. However, training on long video is computationally and memory intensive. We introduce the long-context Multi-Modal Sequence Parallelism (MM-SP) system that efficiently parallelizes long video training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. LongVILA efficiently extends the number of video frames of VILA from 8 to 2048, improving the long video captioning score from 2.00 to 3.26 (out of 5), achieving 99.8% accuracy in 6,000-frame (more than 1 million tokens) video needle-in-a-haystack. LongVILA-7B demonstrates strong accuracy on the VideoMME benchmark, i.e., 61.8% with subtitle. Besides, MM-SP is 2.1x - 5.7x faster than ring style sequence parallelism and 1.1x - 1.4x faster than Megatron with a hybrid context and tensor parallelism. Moreover, it seamlessly integrates with Hugging Face Transformers.
- Abstract(参考訳): ロングコンテクスト能力はマルチモーダル基礎モデル、特にロングビデオ理解において重要である。
本稿では,LongVILAを提案する。LongVILAは長文ビジュアル言語モデルのためのフルスタックソリューションで,アルゴリズムとシステムを共同設計する。
モデルトレーニングでは、既存のVLMをアップグレードして、2つの追加ステージ、すなわち、長期文脈拡張と長期ビデオ教師付き微調整を組み込むことにより、長いビデオ理解を支援する。
しかし、長ビデオのトレーニングは計算的かつメモリ集約的である。
我々は,長いビデオのトレーニングと推論を効率的に並列化し,勾配チェックポイントを使わずに256GPU上で2Mのコンテキスト長トレーニングを可能にする,長文マルチモーダルシーケンス並列(MM-SP)システムを提案する。
LongVILA は VILA の動画フレーム数を 8 から 2048 に効率的に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 に改善し、6,000 フレーム (100 万枚以上のトークン) のビデオニードル・イン・ア・ヘイスタックで 99.8% の精度を実現した。
LongVILA-7B は VideoMME ベンチマークで強い精度を示す。
加えて、MM-SPはリングスタイルのシーケンス並列性より2.1x - 5.7倍速く、ハイブリッドコンテキストとテンソル並列性を持つメガトロンより1.1x - 1.4倍速い。
さらに、Hugging Face Transformersとシームレスに統合される。
関連論文リスト
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding [20.037781644877388]
TimeChatは、長いビデオ理解のために特別に設計された、時間に敏感なマルチモーダルな大規模言語モデルである。
本モデルは,(1) フレームのタイムスタンプに視覚的コンテンツをバインドするタイムスタンプ対応フレームエンコーダ,(2) 長さの異なるビデオトークンシーケンスを生成するスライドビデオQ-Formerの2つの重要なアーキテクチャ的コントリビューションを含む。
論文 参考訳(メタデータ) (2023-12-04T17:09:52Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。