論文の概要: LongVILA: Scaling Long-Context Visual Language Models for Long Videos
- arxiv url: http://arxiv.org/abs/2408.10188v2
- Date: Tue, 20 Aug 2024 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:23:48.855465
- Title: LongVILA: Scaling Long-Context Visual Language Models for Long Videos
- Title(参考訳): LongVILA:ロングビデオのためのロングコンテキストビジュアル言語モデルのスケーリング
- Authors: Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han,
- Abstract要約: LongVILAは、システム、モデルトレーニング、データセット開発を含む、長期コンテキストの視覚言語モデルのためのフルスタックソリューションである。
システム側では、長いトレーニングと推論が可能な最初の長文マルチモーダルシーケンス並列システム(MM-SP)を導入する。
MM-SPはリングシーケンスの並列性より2.1x - 5.7倍、Megatronコンテキストの並列性とテキストのみの設定におけるテンソル並列性より1.1x - 1.4倍速い。
モデルトレーニングでは、アライメント、事前学習、短い教師付き微調整、コンテキスト拡張を含む5段階パイプラインを提案する。
- 参考スコア(独自算出の注目度): 86.28679075537089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first long-context Multi-Modal Sequence Parallelism (MM-SP) system that enables long training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. MM-SP is 2.1x - 5.7x faster than ring sequence parallelism and 1.1x - 1.4x faster than Megatron context parallelism + tensor parallelism in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, short supervised fine-tuning, context extension, and long supervised fine-tuning. On datasets, we construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. LongVILA extends the number of frames of VILA from 8 to 1024, and improves the long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle-in-a-haystack. LongVILA-8B demonstrates consistent accuracy improvements on long videos in the VideoMME benchmark as the number of frames increases.
- Abstract(参考訳): マルチモーダル基礎モデルの長文化は重要である。
私たちはLongVILAを紹介します。LongVILAは、システム、モデルトレーニング、データセット開発を含む、長期コンテキストの視覚言語モデルのためのフルスタックソリューションです。
システム側では、長いトレーニングと推論を可能にし、勾配チェックポイントなしで256GPU上で2Mコンテキスト長のトレーニングを可能にするMM-SP(Long-context Multi-Modal Sequence Parallelism)システムを導入する。
MM-SPはリングシーケンスの並列性より2.1x - 5.7倍、Megatronコンテキストの並列性とテキストのみの設定におけるテンソル並列性より1.1x - 1.4倍速い。
さらに、Hugging Face Transformersとシームレスに統合される。
モデルトレーニングでは,アライメント,事前学習,短い教師付き微調整,コンテキスト拡張,長い教師付き微調整を含む5段階のパイプラインを提案する。
データセットに基づいて、大規模な視覚言語事前学習データセットと長時間のビデオ命令追従データセットを構築し、マルチステージトレーニングプロセスをサポートする。
LongVILA は VILA のフレーム数を 8 から 1024 に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 (1.6x) に改善し、1400 フレームのビデオ (274k コンテキスト長) で 99.5% の精度を実現した。
LongVILA-8Bは、フレーム数が増加するにつれて、ビデオMMEベンチマークにおいて、長いビデオに対して一貫した精度の向上を示す。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。