論文の概要: Local Mixtures of Experts: Essentially Free Test-Time Training via Model Merging
- arxiv url: http://arxiv.org/abs/2505.14136v1
- Date: Tue, 20 May 2025 09:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.033059
- Title: Local Mixtures of Experts: Essentially Free Test-Time Training via Model Merging
- Title(参考訳): エキスパートのローカルな混合: 基本的にはモデルマージによるテスト時間トレーニング
- Authors: Ryo Bertolissi, Jonas Hübotter, Ido Hakimi, Andreas Krause,
- Abstract要約: 専門家(MoE)モデルの混合は、推論コストを増大させることなくモデルキャパシティを増やすための有望なアプローチである。
我々は、MoEパラダイムを桁違いに多くの専門家に拡張するTTMM(Test-Time Model Merging)を提案する。
- 参考スコア(独自算出の注目度): 37.01883745855289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of expert (MoE) models are a promising approach to increasing model capacity without increasing inference cost, and are core components of many state-of-the-art language models. However, current MoE models typically use only few experts due to prohibitive training and inference cost. We propose Test-Time Model Merging (TTMM) which scales the MoE paradigm to an order of magnitude more experts and uses model merging to avoid almost any test-time overhead. We show that TTMM is an approximation of test-time training (TTT), which fine-tunes an expert model for each prediction task, i.e., prompt. TTT has recently been shown to significantly improve language models, but is computationally expensive. We find that performance of TTMM improves with more experts and approaches the performance of TTT. Moreover, we find that with a 1B parameter base model, TTMM is more than 100x faster than TTT at test-time by amortizing the cost of TTT at train-time. Thus, TTMM offers a promising cost-effective approach to scale test-time training.
- Abstract(参考訳): 専門家(MoE)モデルの混合は、推論コストを増大させることなくモデルキャパシティを向上させるための有望なアプローチであり、多くの最先端言語モデルのコアコンポーネントである。
しかし、現行のMoEモデルは、トレーニングの禁止と推論コストのため、専門家がほとんどいないのが一般的である。
テスト時間モデルマージ(TTMM)を提案する。これはMoEパラダイムを桁違いに多くの専門家に拡張し,ほぼすべてのテスト時間オーバーヘッドを回避するためにモデルマージを使用する。
TTMMはテストタイムトレーニング(TTT)の近似であり,各予測タスクのエキスパートモデル,すなわちプロンプトを微調整する。
TTTは最近、言語モデルを大幅に改善することが示されているが、計算コストが高い。
TTMMの性能は,専門家の数が増えて向上し,TTMMの性能が向上することがわかった。
さらに,1Bパラメータベースモデルでは,TTMMはTTTよりも100倍以上高速であることがわかった。
このようにTTMMは、テストタイムトレーニングをスケールするための有望なコスト効率のアプローチを提供する。
関連論文リスト
- Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series [11.635608108358575]
本稿では,効率的な転送学習機能を備えたコンパクトモデルであるTiny Time Mixers (TTM)について紹介する。
TTMには、適応パッチ、多様な解像度サンプリング、およびさまざまなデータセット解像度の事前トレーニングを処理するための解像度プレフィックスチューニングなどのイノベーションが含まれている。
既存のベンチマークでは0/few-shot予測(4-40%)を上回り、計算要求を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-08T15:21:21Z) - Test-Time Training on Video Streams [66.63237260332984]
以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テスト時間トレーニング(TTT)が確立されていた。
TTTをストリーミング設定に拡張し、複数のテストインスタンスが時間順に到着します。
オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-07-11T05:17:42Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。