論文の概要: Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL
- arxiv url: http://arxiv.org/abs/2410.01930v1
- Date: Wed, 2 Oct 2024 18:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:54:27.597061
- Title: Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL
- Title(参考訳): 平らにしないで、トークン化! 深部RLにおけるSoftMoEの有効性の鍵を解き放つ
- Authors: Ghada Sokar, Johan Obando-Ceron, Aaron Courville, Hugo Larochelle, Pablo Samuel Castro,
- Abstract要約: SoftMoEsは最近、オンライン強化学習の問題を緩和する約束を見せている。
我々は、複数の専門家ではなく、エンコーダ出力のトークン化が、SoftMoEsの有効性の裏にあることを発見した。
- 参考スコア(独自算出の注目度): 28.991322629047982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of deep neural networks in reinforcement learning (RL) often suffers from performance degradation as model size increases. While soft mixtures of experts (SoftMoEs) have recently shown promise in mitigating this issue for online RL, the reasons behind their effectiveness remain largely unknown. In this work we provide an in-depth analysis identifying the key factors driving this performance gain. We discover the surprising result that tokenizing the encoder output, rather than the use of multiple experts, is what is behind the efficacy of SoftMoEs. Indeed, we demonstrate that even with an appropriately scaled single expert, we are able to maintain the performance gains, largely thanks to tokenization.
- Abstract(参考訳): 強化学習(RL)におけるディープニューラルネットワークの使用は、モデルのサイズが大きくなるにつれて性能劣化に悩まされることが多い。
ソフトな専門家(SoftMoEs)の混在は、この問題をオンラインRLで緩和する約束を最近示したが、その効果の背景には大きな理由が残っていない。
この作業では、パフォーマンス向上を駆動する重要な要因を特定する、詳細な分析を行います。
我々は、複数の専門家ではなく、エンコーダ出力のトークン化がSoftMoEsの有効性の裏側にあるという驚くべき結果を発見した。
実際、適切なスケールのシングルエキスパートであっても、トークン化によるパフォーマンス向上を維持できることを実証しています。
関連論文リスト
- Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。
我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。
各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文 参考訳(メタデータ) (2025-02-18T15:09:58Z) - Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time [1.1655046053160683]
本稿では,Large Language Models(LLMs)のMixture-of-Expertsアーキテクチャを拡張する手法を提案する。
MoTEは、推論時間中のLLMにおける有意義で集中的な振る舞い変化を可能にする。
論文 参考訳(メタデータ) (2025-02-16T12:24:39Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。
言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文 参考訳(メタデータ) (2024-07-04T20:59:20Z) - Mixture of Experts in a Mixture of RL settings [15.124698782503248]
ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、MoEsはDeep Reinforcement Learning(DRL)の性能を向上させることができることを示す。
DRL設定におけるMoEsの非定常性対応能力について,マルチタスクトレーニングによる「増幅された」非定常性を用いた検討を行った。
論文 参考訳(メタデータ) (2024-06-26T15:15:15Z) - UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Boosting Adversarial Robustness From The Perspective of Effective Margin
Regularization [58.641705224371876]
ディープニューラルネットワーク(DNN)の敵対的脆弱性は、ここ数年で積極的に研究されている。
本稿では,クロスエントロピー損失のスケール変動特性について検討する。
提案した有効マージン正則化(EMR)は,大きな有効マージンを学習し,標準トレーニングと対向トレーニングの両方において対向的ロバスト性を高めることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:16:56Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。