論文の概要: BASE Layers: Simplifying Training of Large, Sparse Models
- arxiv url: http://arxiv.org/abs/2103.16716v1
- Date: Tue, 30 Mar 2021 23:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 06:08:42.030619
- Title: BASE Layers: Simplifying Training of Large, Sparse Models
- Title(参考訳): BASE Layers: 大きなスパースモデルのトレーニングを簡単にする
- Authors: Mike Lewis, Shruti Bhosale, Tim Dettmers, Naman Goyal, Luke
Zettlemoyer
- Abstract要約: 我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
- 参考スコア(独自算出の注目度): 53.98145464002843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new balanced assignment of experts (BASE) layer for large
language models that greatly simplifies existing high capacity sparse layers.
Sparse layers can dramatically improve the efficiency of training and inference
by routing each token to specialized expert modules that contain only a small
fraction of the model parameters. However, it can be difficult to learn
balanced routing functions that make full use of the available experts;
existing approaches typically use routing heuristics or auxiliary
expert-balancing loss functions. In contrast, we formulate token-to-expert
allocation as a linear assignment problem, allowing an optimal assignment in
which each expert receives an equal number of tokens. This optimal assignment
scheme improves efficiency by guaranteeing balanced compute loads, and also
simplifies training by not requiring any new hyperparameters or auxiliary
losses. Code is publicly released at https://github.com/pytorch/fairseq/
- Abstract(参考訳): 我々は,既存の高容量スパース層を大幅に単純化した,大規模言語モデルのエキスパート層(BASE)のバランスのとれた割り当てを導入する。
スパース層は、モデルのパラメータのごく一部しか含まない専門のエキスパートモジュールに各トークンをルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
しかし、利用可能な専門家をフル活用するバランスの取れたルーティング関数を学ぶことは困難である。
対照的に、私たちはトークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
この最適割り当て方式は、バランスの取れた計算負荷を保証することで効率を向上し、新しいハイパーパラメータや補助的な損失を不要にすることでトレーニングを簡素化する。
コードはhttps://github.com/pytorch/fairseq/で公開される。
関連論文リスト
- Simplifying Neural Network Training Under Class Imbalance [77.39968702907817]
実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。
クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊な損失関数、サンプリング技術、または2段階のトレーニング手順に焦点を当てている。
バッチサイズやデータ拡張,ラベルの平滑化といった,標準的なディープラーニングパイプラインの既存のコンポーネントを単にチューニングするだけで,そのような特殊なクラス不均衡な手法を使わずに,最先端のパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2023-12-05T05:52:44Z) - Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [16.664016849293386]
我々は,Deep Neural Networks(DNN)におけるトレーニング可能な低ランク層のためのフレームワークMaestroを提案する。
提案手法は,一様分散データ上での線形写像のSVD分解と,線形オートエンコーダのPCAを復元することを示した。
論文 参考訳(メタデータ) (2023-08-28T23:08:15Z) - LABO: Towards Learning Optimal Label Regularization via Bi-level
Optimization [25.188067240126422]
ニューラルネットワークの一般化性能とトレーニング効率を向上させるためには,正規化技術が不可欠である。
本稿では、従来のLSを含むラベル正規化によるトレーニングのための一般的なフレームワークを提案するが、インスタンス固有の変種をモデル化することもできる。
本稿では,Bi-level Optimization (LABO) 問題を考案し,LAbel 正規化を効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2023-05-08T18:04:18Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs
Simultaneously Instead of One [82.91940450061445]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Subspace Regularizers for Few-Shot Class Incremental Learning [26.372024890126408]
既存のクラスの重みに代表される部分空間に近づき、新しいクラスに対する重みベクトルを奨励する、新しい部分空間正規化スキームの族を示す。
この結果から,クラス表現の幾何学的正則化は連続学習に有効なツールであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T22:19:53Z) - Hash Layers For Large Sparse Models [48.90784451703753]
フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。
本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
論文 参考訳(メタデータ) (2021-06-08T14:54:24Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。