Fugu-MT 論文翻訳(概要): MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks

論文の概要: MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks

arxiv url: http://arxiv.org/abs/2406.04801v1
Date: Fri, 7 Jun 2024 10:05:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 14:40:28.906413
Title: MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks
Title（参考訳）: MoE Jetpack: 複雑なチェックポイントからビジョンタスクの専門家の適応的な混合まで
Authors: Xingkui Zhu, Yiran Guan, Dingkang Liang, Yuchao Chen, Yuliang Liu, Xiang Bai,
Abstract要約: MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。我々は,MoEモデルに高密度チェックポイントを微調整する有効な方法であるMoE Jetpackを紹介する。本実験は,MoE Jetpackが収束速度と精度を大幅に向上することを示す。
参考スコア（独自算出の注目度）: 58.075367597860044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The sparsely activated mixture of experts (MoE) model presents a promising alternative to traditional densely activated (dense) models, enhancing both quality and computational efficiency. However, training MoE models from scratch demands extensive data and computational resources. Moreover, public repositories like timm mainly provide pre-trained dense checkpoints, lacking similar resources for MoE models, hindering their adoption. To bridge this gap, we introduce MoE Jetpack, an effective method for fine-tuning dense checkpoints into MoE models. MoE Jetpack incorporates two key techniques: (1) checkpoint recycling, which repurposes dense checkpoints as initial weights for MoE models, thereby accelerating convergence, enhancing accuracy, and alleviating the computational burden of pre-training; (2) hyperspherical adaptive MoE (SpheroMoE) layer, which optimizes the MoE architecture for better integration of dense checkpoints, enhancing fine-tuning performance. Our experiments on vision tasks demonstrate that MoE Jetpack significantly improves convergence speed and accuracy when fine-tuning dense checkpoints into MoE models. Our code will be publicly available at https://github.com/Adlith/MoE-Jetpack.
Abstract（参考訳）: 疎活性化された専門家(MoE)モデルの混合は、従来の高密度活性化された(高密度)モデルに代わる有望な選択肢を示し、品質と計算効率の両方を向上する。しかし、MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。さらに、timmのようなパブリックリポジトリは、主にトレーニング済みの高密度チェックポイントを提供し、MoEモデルに類似したリソースを欠いているため、採用を妨げている。このギャップを埋めるために、我々はMoEモデルに高密度チェックポイントを微調整する効果的な方法であるMoE Jetpackを導入する。 MoE Jetpackには,(1)MoEモデルの初期重みとして高密度チェックポイントを再利用し,コンバージェンスを加速し,精度を向上し,事前学習の計算負担を軽減するチェックポイントリサイクル,(2)MoEアーキテクチャを最適化した超球面適応型MoE(SpheroMoE)層など,2つの重要な技術が組み込まれている。視覚課題に関する実験により,MoE JetpackはMoEモデルに高密度チェックポイントを微調整した場合の収束速度と精度を著しく向上することを示した。私たちのコードはhttps://github.com/Adlith/MoE-Jetpack.comで公開されます。

関連論文リスト

MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE [16.413800846658564]
投機的復号法(SD: Speculative decoding)は、LSM推論を精度の低下なしに高速化する手法として広く用いられている。中程度のバッチサイズでは、MoEは高密度モデルよりもSDの恩恵を受けます。これらの効果を特徴付ける新しい指標「目標効率」を導入する。
論文参考訳（メタデータ） (2025-05-26T08:01:45Z)
MoE-Gen: High-Throughput MoE Inference on a Single GPU with Module-Based Batching [2.543762777822215]
MoE-GenはシングルGPU実行のための高速なMoE推論システムである。モジュールベースのトークンを導入し、ホストメモリに蓄積し、大きなバッチを動的に起動して利用を最大化する。 MoE-Genは最先端システムに比べて8-31倍高いスループットを実現している。
論文参考訳（メタデータ） (2025-03-12T18:08:01Z)
Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文参考訳（メタデータ） (2025-02-24T09:12:29Z)
Attention Is All You Need For Mixture-of-Depths Routing [5.419910566904439]
本稿では,新しいアテンションベースのルーティング機構A-MoDを提案する。 A-MoDはトレーニング可能なパラメータを追加しないため、より効率的なトレーニングを可能にする。これにより、MoDモデルの性能が向上する。
論文参考訳（メタデータ） (2024-12-30T11:25:54Z)
EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。 4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文参考訳（メタデータ） (2024-12-09T17:12:22Z)
MoC-System: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training [4.4345088842995395]
本研究では,分散学習システムで発生する多数のチェックポイントシャードをオーケストレーションするMixture-of-Checkpoint System (MoC-System)を提案する。 MoC-Systemは、新しい部分エキスパートチェックポイント(PEC)機構を備えており、これはアルゴリズムシステムの共同設計であり、専門家の選ばれたサブセットを戦略的に保存する。 We build MoC-System on the Megatron-DeepSpeed framework, achieve a 98.9% down of overhead for each checkpointing process。
論文参考訳（メタデータ） (2024-08-08T08:40:15Z)
LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。 100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-08-08T07:37:26Z)
Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark [46.72960840801211]
Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
論文参考訳（メタデータ） (2024-06-12T12:44:48Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文参考訳（メタデータ） (2024-05-23T21:00:53Z)
MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。 ViT法はトランスの表現性を生かし,優れた検出性能を実現する。この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文参考訳（メタデータ） (2024-04-12T13:02:08Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training [18.68993910156101]
大規模MoEトレーニングのためのトポロジ対応ルーティング戦略であるTA-MoEを提案する。 TA-MoEは,様々なハードウェアやモデル構成において,その性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-02-20T11:18:24Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。