論文の概要: Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL
- arxiv url: http://arxiv.org/abs/2410.01930v1
- Date: Wed, 2 Oct 2024 18:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:54:27.597061
- Title: Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL
- Title(参考訳): 平らにしないで、トークン化! 深部RLにおけるSoftMoEの有効性の鍵を解き放つ
- Authors: Ghada Sokar, Johan Obando-Ceron, Aaron Courville, Hugo Larochelle, Pablo Samuel Castro,
- Abstract要約: SoftMoEsは最近、オンライン強化学習の問題を緩和する約束を見せている。
我々は、複数の専門家ではなく、エンコーダ出力のトークン化が、SoftMoEsの有効性の裏にあることを発見した。
- 参考スコア(独自算出の注目度): 28.991322629047982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of deep neural networks in reinforcement learning (RL) often suffers from performance degradation as model size increases. While soft mixtures of experts (SoftMoEs) have recently shown promise in mitigating this issue for online RL, the reasons behind their effectiveness remain largely unknown. In this work we provide an in-depth analysis identifying the key factors driving this performance gain. We discover the surprising result that tokenizing the encoder output, rather than the use of multiple experts, is what is behind the efficacy of SoftMoEs. Indeed, we demonstrate that even with an appropriately scaled single expert, we are able to maintain the performance gains, largely thanks to tokenization.
- Abstract(参考訳): 強化学習(RL)におけるディープニューラルネットワークの使用は、モデルのサイズが大きくなるにつれて性能劣化に悩まされることが多い。
ソフトな専門家(SoftMoEs)の混在は、この問題をオンラインRLで緩和する約束を最近示したが、その効果の背景には大きな理由が残っていない。
この作業では、パフォーマンス向上を駆動する重要な要因を特定する、詳細な分析を行います。
我々は、複数の専門家ではなく、エンコーダ出力のトークン化がSoftMoEsの有効性の裏側にあるという驚くべき結果を発見した。
実際、適切なスケールのシングルエキスパートであっても、トークン化によるパフォーマンス向上を維持できることを実証しています。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。
言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文 参考訳(メタデータ) (2024-07-04T20:59:20Z) - Mixture of Experts in a Mixture of RL settings [15.124698782503248]
ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、MoEsはDeep Reinforcement Learning(DRL)の性能を向上させることができることを示す。
DRL設定におけるMoEsの非定常性対応能力について,マルチタスクトレーニングによる「増幅された」非定常性を用いた検討を行った。
論文 参考訳(メタデータ) (2024-06-26T15:15:15Z) - UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Boosting Adversarial Robustness From The Perspective of Effective Margin
Regularization [58.641705224371876]
ディープニューラルネットワーク(DNN)の敵対的脆弱性は、ここ数年で積極的に研究されている。
本稿では,クロスエントロピー損失のスケール変動特性について検討する。
提案した有効マージン正則化(EMR)は,大きな有効マージンを学習し,標準トレーニングと対向トレーニングの両方において対向的ロバスト性を高めることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:16:56Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Dissecting U-net for Seismic Application: An In-Depth Study on Deep
Learning Multiple Removal [3.058685580689605]
地震処理は、しばしばデータ収集時に現れる多重を抑圧する必要がある。
我々は、その使い方の複雑さを減らしながら、競争力のある結果を提供するディープラーニングベースの代替案を提示します。
論文 参考訳(メタデータ) (2022-06-24T07:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。