論文の概要: HyperRouter: Towards Efficient Training and Inference of Sparse Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2312.07035v1
- Date: Tue, 12 Dec 2023 07:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-13 17:13:59.300288
- Title: HyperRouter: Towards Efficient Training and Inference of Sparse Mixture
of Experts
- Title(参考訳): HyperRouter: エキスパートのスパースミックスの効果的なトレーニングと推論を目指して
- Authors: Giang Do, Khiem Le, Quang Pham, TrungTin Nguyen, Thanh-Nam Doan, Bint
T. Nguyen, Chenghao Liu, Savitha Ramasamy, Xiaoli Li, Steven Hoi
- Abstract要約: この研究はHyperRoutを導入し、固定されたハイパーネットワークとトレーニング可能な埋め込みを通じてルータのパラメータを動的に生成する。
幅広いタスクにわたる実験は、HyperRoutの優れたパフォーマンスと効率性を示す。
- 参考スコア(独自算出の注目度): 34.08858035082419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By routing input tokens to only a few split experts, Sparse
Mixture-of-Experts has enabled efficient training of large language models.
Recent findings suggest that fixing the routers can achieve competitive
performance by alleviating the collapsing problem, where all experts eventually
learn similar representations. However, this strategy has two key limitations:
(i) the policy derived from random routers might be sub-optimal, and (ii) it
requires extensive resources during training and evaluation, leading to limited
efficiency gains. This work introduces \HyperRout, which dynamically generates
the router's parameters through a fixed hypernetwork and trainable embeddings
to achieve a balance between training the routers and freezing them to learn an
improved routing policy. Extensive experiments across a wide range of tasks
demonstrate the superior performance and efficiency gains of \HyperRouter
compared to existing routing methods. Our implementation is publicly available
at {\url{{https://github.com/giangdip2410/HyperRouter}}}.
- Abstract(参考訳): 入力トークンを少数の専門家にルーティングすることで、Sparse Mixture-of-Expertsは大規模言語モデルの効率的なトレーニングを可能にした。
近年の研究では、すべての専門家が最終的に同様の表現を学習する崩壊問題を緩和することで、ルータの修理が競争力を発揮することが示唆されている。
しかし、この戦略には2つの重要な制限がある。
一 ランダムなルータから派生したポリシーは準最適かもしれない。
(ii)訓練や評価には膨大な資源が必要であり、効率性は限られている。
この作業では、固定ハイパーネットワークとトレーニング可能な埋め込みを通じてルータのパラメータを動的に生成し、ルータのトレーニングと凍結のバランスを実現し、改善されたルーティングポリシを学ぶ。
幅広いタスクにわたる大規模な実験は、既存のルーティング手法と比較して、 \HyperRouterの性能と効率性が優れていることを示す。
我々の実装は {\url{https://github.com/giangdip2410/HyperRouter}}} で公開されています。
関連論文リスト
- Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts [56.02203242609604]
大規模言語モデル(LLM)は、軽量アダプタで微調整され、多様なタスクにわたって強力なパフォーマンスを実現する。
異なる強みを持つ独立に訓練されたモデルを使用することで、3つの主要な戦略を通じてマルチタスク学習の可能性を示している。
私たちは、彼らのトレードオフを実証的に評価し、2つの重要な疑問に対処します。 均一なアンサンブルやマージを超えて行く利点は何ですか?そして、ルーティングの柔軟性は、その複雑さを正当化するのでしょうか?
論文 参考訳(メタデータ) (2026-03-03T21:44:11Z) - SkillOrchestra: Learning to Route Agents via Skill Transfer [65.50924963973286]
スキルを意識したオーケストレーションのためのフレームワークであるSkillOrchestraを紹介します。
SkillOrchestraは、実行経験からきめ細かいスキルを学び、それらのスキルの下でエージェント固有の能力とコストをモデル化する。
デプロイメントでは、オーケストレータが現在のインタラクションのスキル要件を推測し、明示的なパフォーマンスコストトレードオフの下でそれらを最も満足するエージェントを選択する。
論文 参考訳(メタデータ) (2026-02-23T10:17:25Z) - When Routing Collapses: On the Degenerate Convergence of LLM Routers [46.01380774114097]
ユーザのコスト予算が増加するにつれて、ルータは体系的に最も有能で最も高価なモデルにデフォルトとなる。
モデルランキングを直接学習する決定対応ルータであるEquiを提案する。
RouterBenchでは、最強の先行ルータと比較して、GPT-4レベルのパフォーマンスでコストを約17%削減する。
論文 参考訳(メタデータ) (2026-02-03T12:51:55Z) - TCAndon-Router: Adaptive Reasoning Router for Multi-Agent Collaboration [0.9564467981235256]
マルチエージェントシステム(MAS)は、高性能なインテリジェントアプリケーションを構築するための強力なパラダイムとなっている。
これらのシステム内では、特定のクエリを処理する専門家エージェントを決定するルータが、全体的なパフォーマンスにおいて重要な役割を果たす。
これらの課題に対処するため,マルチエージェント協調のための適応推論ルータTCAndon-TCARを提案する。
公開データセットと実際のエンタープライズデータの実験は、TARがルーティングの正確性を大幅に改善し、ルーティングの競合を低減し、あいまいなシナリオで堅牢であることを示している。
論文 参考訳(メタデータ) (2026-01-08T03:17:33Z) - ProxRouter: Proximity-Weighted LLM Query Routing for Improved Robustness to Outliers [14.831117443453165]
大規模言語モデル(LLM)クエリルータは、現代のAIプラットフォームにとって極めて重要である。
非パラメトリックルータにおけるバイアスと分散のバランスをとるために指数関数的に傾いたアグリゲーション機構を応用したProxを提案する。
論文 参考訳(メタデータ) (2025-10-10T20:28:14Z) - Router Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling [26.191204823414427]
本稿では,MoEアップサイクリングモデルの性能を向上させるために,ルータアップサイクリングと呼ばれる新しいルーティング手法を提案する。
提案手法は,SOTA(State-of-the-art)の性能を向上し,他のアップサイクルベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-08-31T03:22:54Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [37.348178220494226]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.40923861822689]
より重要でない層をスキップすることで計算深度を動的に調整するために,MoD(Mixture of Depths)を導入した。
約束にもかかわらず、現在のMoDアプローチは未探索のままであり、2つの大きな課題に直面している。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として,動的深度でtextitAttention をデプロイする MindSkip を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:23:50Z) - Learning Sub-Second Routing Optimization in Computer Networks requires Packet-Level Dynamics [15.018408728324887]
強化学習は、ルーティング決定を提供するネットワーク表現を学ぶのに役立つ。
汎用ネットワークトポロジにおけるルーティングのための最初のパケットレベル強化学習環境であるtextitPackeRL$を提示する。
また、サブ秒間ルーティング最適化を学習するための2つの新しいアルゴリズムも導入する。
論文 参考訳(メタデータ) (2024-10-14T11:03:46Z) - RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models [24.113223576205932]
この結果から,Dual Contrastive Learning (DC) による問合せベースのルータが大規模言語モデル (LLM) の組み立てに有効であることを示す。
DC は LLM を組み立てるのに有効であり、個々のトップパフォーマンスの LLM と、分布内および分布外の両方のタスクにおける既存のルーティング方法に大きく勝る。
論文 参考訳(メタデータ) (2024-09-30T02:31:40Z) - XRoute Environment: A Novel Reinforcement Learning Environment for
Routing [8.797544401458476]
我々は,新しい強化学習環境であるXRoute Environmentを紹介した。
エージェントは、高度なエンドツーエンドのルーティングフレームワークでネットを選択してルーティングするように訓練される。
結果として生じる環境は難しく、使いやすく、カスタマイズし、追加のシナリオを追加します。
論文 参考訳(メタデータ) (2023-05-23T08:46:25Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。