論文の概要: Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning
- arxiv url: http://arxiv.org/abs/2602.03815v1
- Date: Tue, 03 Feb 2026 18:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.635925
- Title: Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning
- Title(参考訳): 視覚的トーケンプルーニングによるマルチモーダル大言語モデルの高速学習
- Authors: Dingkun Zhang, Shuhan Qi, Yulin Wu, Xinyu Xiao, Xuan Wang, Long Chen,
- Abstract要約: 既存の効率的なトレーニングの取り組みは、モデルサイズやトレーニング可能なパラメータの削減に重点を置いている。
トレーニング段階でVTPを適用すると、トレーニングと推論のミスマッチが発生します。
MLLMの効率的なトレーニングのための高速スローフレームワークであるDualSpeedを提案する。
- 参考スコア(独自算出の注目度): 19.291990706129994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) suffer from severe training inefficiency issue, which is associated with their massive model sizes and visual token numbers. Existing efforts in efficient training focus on reducing model sizes or trainable parameters. Inspired by the success of Visual Token Pruning (VTP) in improving inference efficiency, we are exploring another substantial research direction for efficient training by reducing visual tokens. However, applying VTP at the training stage results in a training-inference mismatch: pruning-trained models perform poorly when inferring on non-pruned full visual token sequences. To close this gap, we propose DualSpeed, a fast-slow framework for efficient training of MLLMs. The fast-mode is the primary mode, which incorporates existing VTP methods as plugins to reduce visual tokens, along with a mode isolator to isolate the model's behaviors. The slow-mode is the auxiliary mode, where the model is trained on full visual sequences to retain training-inference consistency. To boost its training, it further leverages self-distillation to learn from the sufficiently trained fast-mode. Together, DualSpeed can achieve both training efficiency and non-degraded performance. Experiments show DualSpeed accelerates the training of LLaVA-1.5 by 2.1$\times$ and LLaVA-NeXT by 4.0$\times$, retaining over 99% performance. Code: https://github.com/dingkun-zhang/DualSpeed
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、大規模なモデルサイズと視覚トークン数に関連する、厳しいトレーニング不効率の問題に悩まされる。
既存の効率的なトレーニングの取り組みは、モデルサイズやトレーニング可能なパラメータの削減に重点を置いている。
VTP(Visual Token Pruning)の推論効率向上の成功にインスパイアされた私たちは、視覚トークンの削減による効率的なトレーニングのための、別の重要な研究方向を模索している。
しかしながら、トレーニング段階でVTPを適用すると、トレーニング推論ミスマッチが発生する。
このギャップを埋めるため、我々はMLLMの効率的なトレーニングのための高速スローフレームワークであるDualSpeedを提案する。
ファストモードは、既存のVTPメソッドをプラグインとして組み込んで視覚トークンを減らすとともに、モデルの振る舞いを分離するモードアイソレータである。
スローモードは補助モードであり、モデルがトレーニングと推論の一貫性を維持するために、完全な視覚的シーケンスでトレーニングされる。
トレーニングを強化するために、十分に訓練された高速モードから学ぶために、さらに自己蒸留を活用する。
同時に、DualSpeedはトレーニング効率と非劣化性能の両方を達成することができる。
実験では、DualSpeedはLLaVA-1.5のトレーニングを2.1$\times$で、LLaVA-NeXTを4.0$\times$で加速し、99%以上のパフォーマンスを維持している。
コード:https://github.com/dingkun-zhang/DualSpeed
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z) - LightPAFF: A Two-Stage Distillation Framework for Pre-training and
Fine-tuning [146.51221523793342]
LightPAFFは、2段階の知識蒸留を使用して、大きな教師モデルから軽量の学生モデルに知識を伝達する。
LightPAFFはモデルサイズを5倍近く削減し、オンライン推論速度を5倍-7倍改善する。
論文 参考訳(メタデータ) (2020-04-27T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。