論文の概要: Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray
- arxiv url: http://arxiv.org/abs/2502.05177v1
- Date: Fri, 07 Feb 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:21.507269
- Title: Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray
- Title(参考訳): Long-VITA: 大規模マルチモーダルモデルから100万トークンへのスケールアップ
- Authors: Yunhang Shen, Chaoyou Fu, Shaoqi Dong, Xiong Wang, Peixian Chen, Mengdan Zhang, Haoyu Cao, Ke Li, Xiawu Zheng, Yan Zhang, Yiyi Zhou, Rongrong Ji, Xing Sun,
- Abstract要約: Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。
4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
- 参考スコア(独自算出の注目度): 79.38659061551517
- License:
- Abstract: Establishing the long-context capability of large vision-language models is crucial for video understanding, high-resolution image understanding, multi-modal agents and reasoning. We introduce Long-VITA, a simple yet effective large multi-modal model for long-context visual-language understanding tasks. It is adept at concurrently processing and analyzing modalities of image, video, and text over 4K frames or 1M tokens while delivering advanced performances on short-context multi-modal tasks. We propose an effective multi-modal training schema that starts with large language models and proceeds through vision-language alignment, general knowledge learning, and two sequential stages of long-sequence fine-tuning. We further implement context-parallelism distributed inference and logits-masked language modeling head to scale Long-VITA to infinitely long inputs of images and texts during model inference. Regarding training data, Long-VITA is built on a mix of $17$M samples from public datasets only and demonstrates the state-of-the-art performance on various multi-modal benchmarks, compared against recent cutting-edge models with internal data. Long-VITA is fully reproducible and supports both NPU and GPU platforms for training and testing. We hope Long-VITA can serve as a competitive baseline and offer valuable insights for the open-source community in advancing long-context multi-modal understanding.
- Abstract(参考訳): 映像理解,高解像度画像理解,マルチモーダルエージェント,推論において,大規模視覚言語モデルの長文機能を確立することが重要である。
本稿では,Long-VITA(Long-VITA)を提案する。
4Kフレームまたは1Mトークン上で画像、ビデオ、テキストのモダリティを同時に処理し、分析し、短文のマルチモーダルタスクで高度なパフォーマンスを提供する。
本稿では,大規模言語モデルから始まり,視覚言語アライメント,一般知識学習,時系列微調整の2段階を経る効果的なマルチモーダルトレーニングスキーマを提案する。
モデル推論における画像とテキストの無限に長い入力にLong-VITAをスケールするために、コンテキスト並列分散推論とロジット対応言語モデリングヘッドを実装した。
トレーニングデータに関しては、Long-VITAは、公開データセットのみから17$Mのサンプルを混合して構築されており、内部データを持つ最近の最先端モデルと比較して、さまざまなマルチモーダルベンチマークにおける最先端のパフォーマンスを実証している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
Long-VITAが競争のベースラインとして機能し、ロングコンテキストのマルチモーダル理解を前進させる上で、オープンソースコミュニティに貴重な洞察を提供することを期待しています。
関連論文リスト
- V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding [40.784423313750075]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクを扱う上で有望な能力を示しているが、長いコンテキストシナリオでは苦労している。
本稿では,視覚トークンに可変インクリメントを取り入れた新しい位置符号化手法を提案し,長いマルチモーダルシーケンスのより効率的な管理を実現する。
細調整されたモデルでは、標準タスクと長文マルチモーダルタスクの両方で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-12T18:59:46Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - World Model on Million-Length Video And Language With Blockwise RingAttention [75.82014160713348]
我々は、言語検索における新しいベンチマークと、長いビデオ理解における新しい機能を設定した。
長いシーケンスでスケーラブルなトレーニングを行うための効率的なオープンソース実装を提案する。
我々は,100万トークンを超える長文文書や動画を処理できる7Bパラメータモデルのファミリをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-02-13T07:47:36Z) - Long-range Multimodal Pretraining for Movie Understanding [79.63187251571391]
本稿では,映画データを利用してトランスファー可能なマルチモーダルエンコーダとクロスモーダルエンコーダを訓練する戦略とモデルを提案する。
私たちのキーとなるアイデアは、長期にわたる関係を観察し、抽出することで、映画のあらゆるモダリティから学ぶことです。
本モデルでは,複数のLVUタスクの最先端化を実現し,従来の作業よりもはるかにデータ効率がよい。
論文 参考訳(メタデータ) (2023-08-18T18:52:59Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。