論文の概要: HyperRouter: Towards Efficient Training and Inference of Sparse Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2312.07035v1
- Date: Tue, 12 Dec 2023 07:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:13:59.300288
- Title: HyperRouter: Towards Efficient Training and Inference of Sparse Mixture
of Experts
- Title(参考訳): HyperRouter: エキスパートのスパースミックスの効果的なトレーニングと推論を目指して
- Authors: Giang Do, Khiem Le, Quang Pham, TrungTin Nguyen, Thanh-Nam Doan, Bint
T. Nguyen, Chenghao Liu, Savitha Ramasamy, Xiaoli Li, Steven Hoi
- Abstract要約: この研究はHyperRoutを導入し、固定されたハイパーネットワークとトレーニング可能な埋め込みを通じてルータのパラメータを動的に生成する。
幅広いタスクにわたる実験は、HyperRoutの優れたパフォーマンスと効率性を示す。
- 参考スコア(独自算出の注目度): 34.08858035082419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By routing input tokens to only a few split experts, Sparse
Mixture-of-Experts has enabled efficient training of large language models.
Recent findings suggest that fixing the routers can achieve competitive
performance by alleviating the collapsing problem, where all experts eventually
learn similar representations. However, this strategy has two key limitations:
(i) the policy derived from random routers might be sub-optimal, and (ii) it
requires extensive resources during training and evaluation, leading to limited
efficiency gains. This work introduces \HyperRout, which dynamically generates
the router's parameters through a fixed hypernetwork and trainable embeddings
to achieve a balance between training the routers and freezing them to learn an
improved routing policy. Extensive experiments across a wide range of tasks
demonstrate the superior performance and efficiency gains of \HyperRouter
compared to existing routing methods. Our implementation is publicly available
at {\url{{https://github.com/giangdip2410/HyperRouter}}}.
- Abstract(参考訳): 入力トークンを少数の専門家にルーティングすることで、Sparse Mixture-of-Expertsは大規模言語モデルの効率的なトレーニングを可能にした。
近年の研究では、すべての専門家が最終的に同様の表現を学習する崩壊問題を緩和することで、ルータの修理が競争力を発揮することが示唆されている。
しかし、この戦略には2つの重要な制限がある。
一 ランダムなルータから派生したポリシーは準最適かもしれない。
(ii)訓練や評価には膨大な資源が必要であり、効率性は限られている。
この作業では、固定ハイパーネットワークとトレーニング可能な埋め込みを通じてルータのパラメータを動的に生成し、ルータのトレーニングと凍結のバランスを実現し、改善されたルーティングポリシを学ぶ。
幅広いタスクにわたる大規模な実験は、既存のルーティング手法と比較して、 \HyperRouterの性能と効率性が優れていることを示す。
我々の実装は {\url{https://github.com/giangdip2410/HyperRouter}}} で公開されています。
関連論文リスト
- Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.40923861822689]
より重要でない層をスキップすることで計算深度を動的に調整するために,MoD(Mixture of Depths)を導入した。
約束にもかかわらず、現在のMoDアプローチは未探索のままであり、2つの大きな課題に直面している。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として,動的深度でtextitAttention をデプロイする MindSkip を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - Learning Sub-Second Routing Optimization in Computer Networks requires Packet-Level Dynamics [15.018408728324887]
強化学習は、ルーティング決定を提供するネットワーク表現を学ぶのに役立つ。
汎用ネットワークトポロジにおけるルーティングのための最初のパケットレベル強化学習環境であるtextitPackeRL$を提示する。
また、サブ秒間ルーティング最適化を学習するための2つの新しいアルゴリズムも導入する。
論文 参考訳(メタデータ) (2024-10-14T11:03:46Z) - RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models [24.113223576205932]
この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。
DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
論文 参考訳(メタデータ) (2024-09-30T02:31:40Z) - XRoute Environment: A Novel Reinforcement Learning Environment for
Routing [8.797544401458476]
我々は,新しい強化学習環境であるXRoute Environmentを紹介した。
エージェントは、高度なエンドツーエンドのルーティングフレームワークでネットを選択してルーティングするように訓練される。
結果として生じる環境は難しく、使いやすく、カスタマイズし、追加のシナリオを追加します。
論文 参考訳(メタデータ) (2023-05-23T08:46:25Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。