Fugu-MT 論文翻訳(概要): BASE Layers: Simplifying Training of Large, Sparse Models

論文の概要: BASE Layers: Simplifying Training of Large, Sparse Models

arxiv url: http://arxiv.org/abs/2103.16716v1
Date: Tue, 30 Mar 2021 23:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-02 06:08:42.030619
Title: BASE Layers: Simplifying Training of Large, Sparse Models
Title（参考訳）: BASE Layers: 大きなスパースモデルのトレーニングを簡単にする
Authors: Mike Lewis, Shruti Bhosale, Tim Dettmers, Naman Goyal, Luke Zettlemoyer
Abstract要約: 我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
参考スコア（独自算出の注目度）: 53.98145464002843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a new balanced assignment of experts (BASE) layer for large language models that greatly simplifies existing high capacity sparse layers. Sparse layers can dramatically improve the efficiency of training and inference by routing each token to specialized expert modules that contain only a small fraction of the model parameters. However, it can be difficult to learn balanced routing functions that make full use of the available experts; existing approaches typically use routing heuristics or auxiliary expert-balancing loss functions. In contrast, we formulate token-to-expert allocation as a linear assignment problem, allowing an optimal assignment in which each expert receives an equal number of tokens. This optimal assignment scheme improves efficiency by guaranteeing balanced compute loads, and also simplifies training by not requiring any new hyperparameters or auxiliary losses. Code is publicly released at https://github.com/pytorch/fairseq/
Abstract（参考訳）: 我々は,既存の高容量スパース層を大幅に単純化した,大規模言語モデルのエキスパート層(BASE)のバランスのとれた割り当てを導入する。スパース層は、モデルのパラメータのごく一部しか含まない専門のエキスパートモジュールに各トークンをルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。しかし、利用可能な専門家をフル活用するバランスの取れたルーティング関数を学ぶことは困難である。対照的に、私たちはトークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。この最適割り当て方式は、バランスの取れた計算負荷を保証することで効率を向上し、新しいハイパーパラメータや補助的な損失を不要にすることでトレーニングを簡素化する。コードはhttps://github.com/pytorch/fairseq/で公開される。

関連論文リスト

Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文参考訳（メタデータ） (2025-07-09T03:25:45Z)
Divide, Specialize, and Route: A New Approach to Efficient Ensemble Learning [0.0]
バイナリ分類のための新しいアンサンブルフレームワーク Hellsemble を提案する。 Hellsembleはデータセットを難易度の円に段階的に分割する。計算効率と解釈可能性を維持しながら、強力な分類精度を達成する。
論文参考訳（メタデータ） (2025-06-25T20:26:04Z)
Load Balancing Mixture of Experts with Similarity Preserving Routers [37.348178220494226]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文参考訳（メタデータ） (2025-06-16T22:22:59Z)
Advancing Expert Specialization for Better MoE [22.570561334474252]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文参考訳（メタデータ） (2025-05-28T13:09:47Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文参考訳（メタデータ） (2025-02-05T20:47:44Z)
Efficient Model Editing with Task Vector Bases: A Theoretical Framework and Scalable Approach [27.395660760819133]
異なる目的のために、保存されたタスクベクトルを演算で操作するのは簡単だが、構成の柔軟性は高いメモリ使用量を必要とする。この研究は、これらの問題に、タスクベクトル算術を説明する理論的に基礎付けられたフレームワークで対処する。本手法は,ダウンストリーム演算におけるメモリコストを大幅に削減する。
論文参考訳（メタデータ） (2025-02-03T03:18:26Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
GOAL: A Generalist Combinatorial Optimization Agent Learning [0.05461938536945722]
GOALは複数のハード最適化問題(COP)を効率的に解くことができるモデルであるゴールは1つのバックボーンと、入力および出力処理用の軽量な問題固有のアダプタで構成されている。 GOALは,幅広いCOPを解く最初のマルチタスクモデルでありながら,特定のベースラインよりもわずかに劣っている。
論文参考訳（メタデータ） (2024-06-21T11:55:20Z)
Simplifying Neural Network Training Under Class Imbalance [77.39968702907817]
実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊な損失関数、サンプリング技術、または2段階のトレーニング手順に焦点を当てている。バッチサイズやデータ拡張,ラベルの平滑化といった,標準的なディープラーニングパイプラインの既存のコンポーネントを単にチューニングするだけで,そのような特殊なクラス不均衡な手法を使わずに,最先端のパフォーマンスを達成できることを実証する。
論文参考訳（メタデータ） (2023-12-05T05:52:44Z)
Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。より正確で安全になるにつれて、ますます大きなものになってきています。つまり、トレーニングはますますコストと時間がかかります。トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文参考訳（メタデータ） (2023-08-28T23:08:15Z)
LABO: Towards Learning Optimal Label Regularization via Bi-level Optimization [25.188067240126422]
ニューラルネットワークの一般化性能とトレーニング効率を向上させるためには,正規化技術が不可欠である。本稿では、従来のLSを含むラベル正規化によるトレーニングのための一般的なフレームワークを提案するが、インスタンス固有の変種をモデル化することもできる。本稿では,Bi-level Optimization (LABO) 問題を考案し,LAbel 正規化を効率的に学習する方法を提案する。
論文参考訳（メタデータ） (2023-05-08T18:04:18Z)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。提案するフレームワークは,合理的な性能で高い効率性を示す。
論文参考訳（メタデータ） (2023-04-20T07:21:32Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Subspace Regularizers for Few-Shot Class Incremental Learning [26.372024890126408]
既存のクラスの重みに代表される部分空間に近づき、新しいクラスに対する重みベクトルを奨励する、新しい部分空間正規化スキームの族を示す。この結果から,クラス表現の幾何学的正則化は連続学習に有効なツールであることが示唆された。
論文参考訳（メタデータ） (2021-10-13T22:19:53Z)
Hash Layers For Large Sparse Models [48.90784451703753]
フィードフォワード層を現在のトークンによって異なる重みのセットにハッシュし、シーケンス内のすべてのトークンに対して変更する。本手法は, 学習と学習の混合手法に比較して, 性能が優れているか, あるいは競争的であるかを示す。
論文参考訳（メタデータ） (2021-06-08T14:54:24Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。