Fugu-MT 論文翻訳(概要): Mixtures of Experts Unlock Parameter Scaling for Deep RL

論文の概要: Mixtures of Experts Unlock Parameter Scaling for Deep RL

arxiv url: http://arxiv.org/abs/2402.08609v1
Date: Tue, 13 Feb 2024 17:18:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 14:30:02.809004
Title: Mixtures of Experts Unlock Parameter Scaling for Deep RL
Title（参考訳）: deep rlのパラメータスケーリングをアンロックする専門家の混合物
Authors: Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro
Abstract要約: 本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
参考スコア（独自算出の注目度）: 56.067378934033265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
Abstract（参考訳）: 最近の(自己)教師付き学習モデルの急速な進歩は、主に経験的スケーリング法則によって予測されている。しかし、モデルパラメータ数の増加が最終的なパフォーマンスを損なうことの多い強化学習領域では、アナログスケーリング法則はいまだ解明されていない。本稿では,moe(mixed-of-expert)モジュール,特にソフトmoe(puigcerver et al., 2023)を価値ベースのネットワークに組み込むことにより,よりパラメータスケーブルなモデルが得られることを示す。この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。

関連論文リスト

Scaling Fine-Grained MoE Beyond 50B Parameters: Empirical Evaluation and Practical Insights [3.8192930334982074]
きめ細かいMoEアプローチは、モデル収束と品質を改善する可能性を示している。この研究は、将来の大規模モデルの開発において、微細なMoEを利用するための経験的基礎と実践的な洞察を提供する。
論文参考訳（メタデータ） (2025-06-03T13:55:48Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient [4.34286535607654]
我々は,高密度モデルとMoEモデルに対する共同スケーリング法則を提案し,アクティブパラメータ数,データセットサイズ,エキスパート数といった重要な要素を取り入れた。驚くべきことに、従来の知恵とは対照的に、MoEモデルは高密度モデルよりもメモリ効率が高いことが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:38Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-12-02T13:58:35Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文参考訳（メタデータ） (2024-10-08T03:21:56Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文参考訳（メタデータ） (2024-03-27T15:27:36Z)
Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文参考訳（メタデータ） (2024-02-12T18:33:47Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文参考訳（メタデータ） (2022-02-13T19:13:00Z)
Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文参考訳（メタデータ） (2021-06-11T18:59:24Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。