論文の概要: BASE Layers: Simplifying Training of Large, Sparse Models
- arxiv url: http://arxiv.org/abs/2103.16716v1
- Date: Tue, 30 Mar 2021 23:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 06:08:42.030619
- Title: BASE Layers: Simplifying Training of Large, Sparse Models
- Title(参考訳): BASE Layers: 大きなスパースモデルのトレーニングを簡単にする
- Authors: Mike Lewis, Shruti Bhosale, Tim Dettmers, Naman Goyal, Luke
Zettlemoyer
- Abstract要約: 我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
- 参考スコア(独自算出の注目度): 53.98145464002843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new balanced assignment of experts (BASE) layer for large
language models that greatly simplifies existing high capacity sparse layers.
Sparse layers can dramatically improve the efficiency of training and inference
by routing each token to specialized expert modules that contain only a small
fraction of the model parameters. However, it can be difficult to learn
balanced routing functions that make full use of the available experts;
existing approaches typically use routing heuristics or auxiliary
expert-balancing loss functions. In contrast, we formulate token-to-expert
allocation as a linear assignment problem, allowing an optimal assignment in
which each expert receives an equal number of tokens. This optimal assignment
scheme improves efficiency by guaranteeing balanced compute loads, and also
simplifies training by not requiring any new hyperparameters or auxiliary
losses. Code is publicly released at https://github.com/pytorch/fairseq/
- Abstract(参考訳): 我々は,既存の高容量スパース層を大幅に単純化した,大規模言語モデルのエキスパート層(BASE)のバランスのとれた割り当てを導入する。
スパース層は、モデルのパラメータのごく一部しか含まない専門のエキスパートモジュールに各トークンをルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
しかし、利用可能な専門家をフル活用するバランスの取れたルーティング関数を学ぶことは困難である。
対照的に、私たちはトークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
この最適割り当て方式は、バランスの取れた計算負荷を保証することで効率を向上し、新しいハイパーパラメータや補助的な損失を不要にすることでトレーニングを簡素化する。
コードはhttps://github.com/pytorch/fairseq/で公開される。
関連論文リスト
- GOAL: A Generalist Combinatorial Optimization Agent Learner [0.05461938536945722]
GOALは複数のハード最適化問題(COP)を効率的に解くことができるモデルである
バックボーンは、ノード、エッジ、インスタンスレベルの任意の組み合わせでグラフ上で定義された問題を処理することができる、ミックスアテンションブロックの新たな形式に基づいている。
GOALは、様々なCOPを解く最初のマルチタスクモデルでありながら、特殊なベースラインよりもわずかに劣っている。
論文 参考訳(メタデータ) (2024-06-21T11:55:20Z) - Simplifying Neural Network Training Under Class Imbalance [77.39968702907817]
実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。
クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊な損失関数、サンプリング技術、または2段階のトレーニング手順に焦点を当てている。
バッチサイズやデータ拡張,ラベルの平滑化といった,標準的なディープラーニングパイプラインの既存のコンポーネントを単にチューニングするだけで,そのような特殊なクラス不均衡な手法を使わずに,最先端のパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2023-12-05T05:52:44Z) - Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。
より正確で安全になるにつれて、ますます大きなものになってきています。
つまり、トレーニングはますますコストと時間がかかります。
トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文 参考訳(メタデータ) (2023-08-28T23:08:15Z) - LABO: Towards Learning Optimal Label Regularization via Bi-level
Optimization [25.188067240126422]
ニューラルネットワークの一般化性能とトレーニング効率を向上させるためには,正規化技術が不可欠である。
本稿では、従来のLSを含むラベル正規化によるトレーニングのための一般的なフレームワークを提案するが、インスタンス固有の変種をモデル化することもできる。
本稿では,Bi-level Optimization (LABO) 問題を考案し,LAbel 正規化を効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2023-05-08T18:04:18Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Subspace Regularizers for Few-Shot Class Incremental Learning [26.372024890126408]
既存のクラスの重みに代表される部分空間に近づき、新しいクラスに対する重みベクトルを奨励する、新しい部分空間正規化スキームの族を示す。
この結果から,クラス表現の幾何学的正則化は連続学習に有効なツールであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T22:19:53Z) - Hash Layers For Large Sparse Models [48.90784451703753]
フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。
本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
論文 参考訳(メタデータ) (2021-06-08T14:54:24Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。