Fugu-MT 論文翻訳(概要): LongVILA: Scaling Long-Context Visual Language Models for Long Videos

論文の概要: LongVILA: Scaling Long-Context Visual Language Models for Long Videos

arxiv url: http://arxiv.org/abs/2408.10188v1
Date: Mon, 19 Aug 2024 17:48:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 15:13:19.378053
Title: LongVILA: Scaling Long-Context Visual Language Models for Long Videos
Title（参考訳）: LongVILA:ロングビデオのためのロングコンテキストビジュアル言語モデルのスケーリング
Authors: Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han,
Abstract要約: LongVILAは、システム、モデルトレーニング、データセット開発を含む、長期コンテキストの視覚言語モデルのためのフルスタックソリューションである。システム側では、長文学習と推論を可能にする最初のマルチモーダルシーケンス並列システム(MM-SP)を導入する。 MM-SPはRing-Style Sequence Parallelismより2.1x - 5.7倍、Megatron-LMより1.4倍高速である。
参考スコア（独自算出の注目度）: 86.28679075537089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP) system that enables long-context training and inference, enabling 2M context length training on 256 GPUs. MM-SP is also efficient, being 2.1x - 5.7x faster than Ring-Style Sequence Parallelism and 1.1x - 1.4x faster than Megatron-LM in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, context extension, and long-short joint supervised fine-tuning. Regarding datasets, we meticulously construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. The full-stack solution extends the feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle in a haystack. LongVILA-8B also demonstrates a consistent improvement in performance on long videos within the VideoMME benchmark as the video frames increase.
Abstract（参考訳）: マルチモーダル基礎モデルの長文化は重要である。私たちはLongVILAを紹介します。LongVILAは、システム、モデルトレーニング、データセット開発を含む、長期コンテキストの視覚言語モデルのためのフルスタックソリューションです。システム側では、256GPU上での2Mコンテキスト長トレーニングを実現するために、長いコンテキストトレーニングと推論を可能にする最初のマルチモーダルシーケンス並列システム(MM-SP)を導入する。 MM-SPはRing-Style Sequence Parallelismより2.1x - 5.7倍、Megatron-LMより1.4倍高速である。さらに、Hugging Face Transformersとシームレスに統合される。モデルトレーニングでは,アライメント,事前学習,コンテキスト拡張,ロングショートジョイントの微調整を含む5段階のパイプラインを提案する。データセットに関しては、大規模ビジュアル言語事前学習データセットと長時間のビデオ命令追従データセットを慎重に構築し、マルチステージトレーニングプロセスをサポートする。フルスタックソリューションは、VILAの実行可能なフレーム数を128(8フレームから1024フレーム)に拡張し、長いビデオキャプションスコアを2.00から3.26(1.6x)に改善し、1400コマのビデオ針(274kコンテキスト長)の精度を99.5%向上させる。 LongVILA-8Bはまた、ビデオフレームが増加するにつれて、ビデオMMEベンチマーク内での長いビデオのパフォーマンスが一貫した改善を示す。

関連論文リスト

Scaling RL to Long Videos [107.41198639507255]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。 LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文参考訳（メタデータ） (2025-07-10T17:47:40Z)
Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy [111.1291107651131]
Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。 4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。 Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
論文参考訳（メタデータ） (2025-02-07T18:59:56Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文参考訳（メタデータ） (2024-09-30T07:25:16Z)
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文参考訳（メタデータ） (2024-09-02T08:52:58Z)
LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文参考訳（メタデータ） (2024-07-22T16:00:55Z)
Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。本稿では,言語モデルの観点からこの問題にアプローチする。言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文参考訳（メタデータ） (2024-06-24T17:58:06Z)
Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文参考訳（メタデータ） (2024-06-24T01:56:12Z)
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-04-08T17:59:24Z)
LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。 LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文参考訳（メタデータ） (2024-02-19T11:59:14Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-12T09:08:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。