論文の概要: FarSkip-Collective: Unhobbling Blocking Communication in Mixture of Experts Models
- arxiv url: http://arxiv.org/abs/2511.11505v1
- Date: Fri, 14 Nov 2025 17:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.744742
- Title: FarSkip-Collective: Unhobbling Blocking Communication in Mixture of Experts Models
- Title(参考訳): FarSkip-Collective: エキスパートモデルの混合におけるブロッキング通信の非ホブリング
- Authors: Yonatan Dukler, Guihong Li, Deval Shah, Vikram Appia, Emad Barsoum,
- Abstract要約: 本稿では,FarSkip-Collectiveを提案する。
我々は16Bから109Bパラメータに変化する一連の最先端モデルを完全に変換し、通信の重複を可能にする。
大規模な修正モデルの保持精度の証明に加えて,最適化実装によるFarSkip-Collectiveの利点も実現した。
- 参考スコア(独自算出の注目度): 17.64873155970997
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Blocking communication presents a major hurdle in running MoEs efficiently in distributed settings. To address this, we present FarSkip-Collective which modifies the architecture of modern models to enable overlapping of their computation with communication. Our approach modifies the architecture to skip connections in the model and it is unclear a priori whether the modified model architecture can remain as capable, especially for large state-of-the-art models and while modifying all of the model layers. We answer this question in the affirmative and fully convert a series of state-of-the-art models varying from 16B to 109B parameters to enable overlapping of their communication while achieving accuracy on par with their original open-source releases. For example, we convert Llama 4 Scout (109B) via self-distillation and achieve average accuracy within 1% of its instruction tuned release averaged across a wide range of downstream evaluations. In addition to demonstrating retained accuracy of the large modified models, we realize the benefits of FarSkip-Collective through optimized implementations that explicitly overlap communication with computation, accelerating both training and inference in existing frameworks.
- Abstract(参考訳): ブロッキング通信は、分散環境でのMoEの効率的な実行において大きなハードルとなる。
これを解決するために,FarSkip-Collectiveを提案する。
当社のアプローチでは,モデル内の接続をスキップするようにアーキテクチャを変更しており,特に大規模モデルやすべてのモデルレイヤの変更において,修正されたモデルアーキテクチャが同等に機能するかどうかについては未定である。
そこで本研究では,16Bから109Bのパラメータに変化のある一連の最先端モデルを完全変換して,従来のオープンソースリリースと同等の精度で通信の重複を可能にする。
例えば、Llama 4 Scout (109B) を自己蒸留で変換し、その調律リリースの1%以内の平均精度を幅広い下流評価で達成する。
大規模な修正モデルの保持精度の証明に加えて,FarSkip-Collectiveの最適化実装により,計算との通信を明示的に重複させ,既存のフレームワークでのトレーニングと推論の高速化を実現している。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - HeteroTune: Efficient Federated Learning for Large Heterogeneous Models [35.53420882449293]
HeteroTuneは,限られた通信と予算の下で動作する大規模異種モデルのための,新しいファインチューニングパラダイムである。
我々の手法のコアは、異種モデルの柔軟かつ効率的な集約を可能にする新しいアーキテクチャであるDeMAにある。
We provide the theory analysis and empirical evidence shows that HeteroTune achieves state-of-the-art performance and efficiency across various task and model architectures。
論文 参考訳(メタデータ) (2024-11-25T09:58:51Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。