論文の概要: Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
- arxiv url: http://arxiv.org/abs/2407.15819v1
- Date: Mon, 22 Jul 2024 17:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:51:10.694786
- Title: Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
- Title(参考訳): 視線の連鎖によるマルチモーダルLDMの事前学習の高速化
- Authors: Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang,
- Abstract要約: Chain-of-Sightはマルチモーダル大規模言語モデル(MLLM)の事前学習を加速する視覚言語ブリッジモジュールである。
提案手法では,様々な空間スケールで視覚的詳細をキャプチャする視覚的リサンプラーを用いている。
- 参考スコア(独自算出の注目度): 42.79819005256256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Chain-of-Sight, a vision-language bridge module that accelerates the pre-training of Multimodal Large Language Models (MLLMs). Our approach employs a sequence of visual resamplers that capture visual details at various spacial scales. This architecture not only leverages global and local visual contexts effectively, but also facilitates the flexible extension of visual tokens through a compound token scaling strategy, allowing up to a 16x increase in the token count post pre-training. Consequently, Chain-of-Sight requires significantly fewer visual tokens in the pre-training phase compared to the fine-tuning phase. This intentional reduction of visual tokens during pre-training notably accelerates the pre-training process, cutting down the wall-clock training time by ~73%. Empirical results on a series of vision-language benchmarks reveal that the pre-train acceleration through Chain-of-Sight is achieved without sacrificing performance, matching or surpassing the standard pipeline of utilizing all visual tokens throughout the entire training process. Further scaling up the number of visual tokens for pre-training leads to stronger performances, competitive to existing approaches in a series of benchmarks.
- Abstract(参考訳): 本稿では,MLLM(Multimodal Large Language Models)の事前学習を高速化する視覚言語ブリッジモジュールであるChain-of-Sightを紹介する。
提案手法では,様々な空間スケールで視覚的詳細をキャプチャする視覚的リサンプラーを用いている。
このアーキテクチャは、グローバルおよびローカルな視覚的コンテキストを効果的に活用するだけでなく、複合トークンスケーリング戦略を通じて視覚的トークンの柔軟な拡張を促進する。
その結果、視力の連鎖は、微調整フェーズと比較して、事前学習フェーズにおける視覚トークンを著しく少なくする。
この事前トレーニング中の視覚トークンの意図的な削減は、特に事前トレーニングプロセスを加速させ、ウォールタイムのトレーニング時間を約73%短縮する。
一連の視覚言語ベンチマークによる実証的な結果から、Chain-of-Sightによる事前トレーニングの加速は、トレーニングプロセス全体を通して、すべての視覚トークンを活用するための標準的なパイプラインにマッチまたは超えることなく、パフォーマンスを犠牲にすることなく達成されることが明らかになった。
さらに、事前トレーニングのためのビジュアルトークンの数をスケールアップすると、パフォーマンスが向上し、一連のベンチマークで既存のアプローチと競合するようになる。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [21.500920290909843]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模多言語モデルにおける効率的なトレーニングについて述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
トレーニング中の視覚トークンの数を削減し、パフォーマンスを犠牲にすることなく、トレーニング効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。