Fugu-MT 論文翻訳(概要): ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs

論文の概要: ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs

arxiv url: http://arxiv.org/abs/2507.21420v1
Date: Tue, 29 Jul 2025 01:07:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:55.460368
Title: ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs
Title（参考訳）: ReGATE: MLLMで少ないトークンでより速く、より良く学習する
Authors: Chaoyu Li, Yogesh Kulkarni, Pooyan Fazli,
Abstract要約: ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。 MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
参考スコア（独自算出の注目度）: 1.1834200163382398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The computational cost of training multimodal large language models (MLLMs) rapidly increases with the number of tokens involved. Existing efficiency methods primarily target inference and rely on token reduction or merging, offering limited benefit during training. In this paper, we propose ReGATE (Reference$-$Guided Adaptive Token Elision), an adaptive token pruning method for accelerating MLLM training. Specifically, ReGATE adopts a teacher-student framework in which the MLLM being trained serves as the student, and a frozen reference large language model (LLM) acts as the teacher. The teacher computes per-token reference losses, which are combined with an exponential moving average (EMA) of the student's own difficulty scores. This adaptive difficulty-based scoring enables the selective processing of crucial tokens while bypassing less informative ones in the forward pass, significantly reducing computational overhead. Experiments demonstrate that ReGATE, when applied to VideoLLaMA2, matches the peak accuracy of standard training on MVBench up to 2$\times$ faster, using only 35% of the tokens. With additional training, it even surpasses the baseline on several multimodal benchmarks, all while reducing the total token count by over 41%. Code and models will be released soon.
Abstract（参考訳）: MLLM(Multimodal large language model)を訓練する際の計算コストは,トークン数の増加とともに急速に増加する。既存の効率の方法は、主に推論を対象とし、トークンの削減やマージに依存し、トレーニング中に限られた利益を提供する。本稿では,MLLM学習の高速化を目的とした適応トークンプルーニング手法であるReGATE(Reference$-$Guided Adaptive Token Elision)を提案する。特に、ReGATEは、MLLMが学生として機能し、凍結参照大言語モデル(LLM)が教師として機能する教師学生フレームワークを採用している。教師は、生徒自身の難易度スコアの指数的移動平均(EMA)と組み合わせて、トーケン毎の基準損失を算出する。この適応的難易度に基づくスコアリングは、フォワードパスにおける情報が少ないトークンをバイパスしながら重要なトークンの選択的な処理を可能にし、計算オーバーヘッドを大幅に削減する。実験では、ReGATEがVideoLLaMA2に適用された場合、トークンの35%しか使用せず、MVBench上の標準トレーニングのピーク精度を最大2$\times$速くすることを示した。追加のトレーニングでは、複数のマルチモーダルベンチマークのベースラインを超え、トークン総数を41%以上削減している。コードとモデルはまもなくリリースされる。

関連論文リスト

ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。 Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。 GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳（メタデータ） (2025-05-26T12:23:26Z)
freePruner: A Training-free Approach for Large Multimodal Model Acceleration [23.561529800086454]
freePrunerはトレーニング不要のトークン削減アプローチで、追加のトレーニングなしでオープンソースLMMに直接適用することができる。実験によると、FreePrunerはメインストリームの視覚的質問応答ベンチマークで同等のパフォーマンスを維持しながら、2倍の高速化を実現している。
論文参考訳（メタデータ） (2024-11-23T04:25:16Z)
Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文参考訳（メタデータ） (2024-10-22T17:45:47Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Getting the most out of your tokenizer for pre-training and domain adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文参考訳（メタデータ） (2024-02-01T21:49:34Z)
Accelerating Vision-Language Pretraining with Free Language Modeling [62.30042851111692]
自由言語モデリング(FLM)は、任意の汚職率で100%予測レートを実現する。 FLMは、汚職率との整合性から予測率を解放する。実験の結果、FLMは2.5倍の事前訓練時間短縮を達成できた。
論文参考訳（メタデータ） (2023-03-24T14:49:22Z)
MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T09:22:19Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。