論文の概要: ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs
- arxiv url: http://arxiv.org/abs/2507.21420v1
- Date: Tue, 29 Jul 2025 01:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.460368
- Title: ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs
- Title(参考訳): ReGATE: MLLMで少ないトークンでより速く、より良く学習する
- Authors: Chaoyu Li, Yogesh Kulkarni, Pooyan Fazli,
- Abstract要約: ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。
MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
- 参考スコア(独自算出の注目度): 1.1834200163382398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computational cost of training multimodal large language models (MLLMs) rapidly increases with the number of tokens involved. Existing efficiency methods primarily target inference and rely on token reduction or merging, offering limited benefit during training. In this paper, we propose ReGATE (Reference$-$Guided Adaptive Token Elision), an adaptive token pruning method for accelerating MLLM training. Specifically, ReGATE adopts a teacher-student framework in which the MLLM being trained serves as the student, and a frozen reference large language model (LLM) acts as the teacher. The teacher computes per-token reference losses, which are combined with an exponential moving average (EMA) of the student's own difficulty scores. This adaptive difficulty-based scoring enables the selective processing of crucial tokens while bypassing less informative ones in the forward pass, significantly reducing computational overhead. Experiments demonstrate that ReGATE, when applied to VideoLLaMA2, matches the peak accuracy of standard training on MVBench up to 2$\times$ faster, using only 35% of the tokens. With additional training, it even surpasses the baseline on several multimodal benchmarks, all while reducing the total token count by over 41%. Code and models will be released soon.
- Abstract(参考訳): MLLM(Multimodal large language model)を訓練する際の計算コストは,トークン数の増加とともに急速に増加する。
既存の効率の方法は、主に推論を対象とし、トークンの削減やマージに依存し、トレーニング中に限られた利益を提供する。
本稿では,MLLM学習の高速化を目的とした適応トークンプルーニング手法であるReGATE(Reference$-$Guided Adaptive Token Elision)を提案する。
特に、ReGATEは、MLLMが学生として機能し、凍結参照大言語モデル(LLM)が教師として機能する教師学生フレームワークを採用している。
教師は、生徒自身の難易度スコアの指数的移動平均(EMA)と組み合わせて、トーケン毎の基準損失を算出する。
この適応的難易度に基づくスコアリングは、フォワードパスにおける情報が少ないトークンをバイパスしながら重要なトークンの選択的な処理を可能にし、計算オーバーヘッドを大幅に削減する。
実験では、ReGATEがVideoLLaMA2に適用された場合、トークンの35%しか使用せず、MVBench上の標準トレーニングのピーク精度を最大2$\times$速くすることを示した。
追加のトレーニングでは、複数のマルチモーダルベンチマークのベースラインを超え、トークン総数を41%以上削減している。
コードとモデルはまもなくリリースされる。
関連論文リスト
- ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Getting the most out of your tokenizer for pre-training and domain
adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。
我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文 参考訳(メタデータ) (2024-02-01T21:49:34Z) - Accelerating Vision-Language Pretraining with Free Language Modeling [62.30042851111692]
自由言語モデリング(FLM)は、任意の汚職率で100%予測レートを実現する。
FLMは、汚職率との整合性から予測率を解放する。
実験の結果、FLMは2.5倍の事前訓練時間短縮を達成できた。
論文 参考訳(メタデータ) (2023-03-24T14:49:22Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。