Fugu-MT 論文翻訳(概要): Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL

論文の概要: Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL

arxiv url: http://arxiv.org/abs/2410.01930v1
Date: Wed, 2 Oct 2024 18:22:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 09:54:27.597061
Title: Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL
Title（参考訳）: 平らにしないで、トークン化! 深部RLにおけるSoftMoEの有効性の鍵を解き放つ
Authors: Ghada Sokar, Johan Obando-Ceron, Aaron Courville, Hugo Larochelle, Pablo Samuel Castro,
Abstract要約: SoftMoEsは最近、オンライン強化学習の問題を緩和する約束を見せている。我々は、複数の専門家ではなく、エンコーダ出力のトークン化が、SoftMoEsの有効性の裏にあることを発見した。
参考スコア（独自算出の注目度）: 28.991322629047982
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of deep neural networks in reinforcement learning (RL) often suffers from performance degradation as model size increases. While soft mixtures of experts (SoftMoEs) have recently shown promise in mitigating this issue for online RL, the reasons behind their effectiveness remain largely unknown. In this work we provide an in-depth analysis identifying the key factors driving this performance gain. We discover the surprising result that tokenizing the encoder output, rather than the use of multiple experts, is what is behind the efficacy of SoftMoEs. Indeed, we demonstrate that even with an appropriately scaled single expert, we are able to maintain the performance gains, largely thanks to tokenization.
Abstract（参考訳）: 強化学習(RL)におけるディープニューラルネットワークの使用は、モデルのサイズが大きくなるにつれて性能劣化に悩まされることが多い。ソフトな専門家(SoftMoEs)の混在は、この問題をオンラインRLで緩和する約束を最近示したが、その効果の背景には大きな理由が残っていない。この作業では、パフォーマンス向上を駆動する重要な要因を特定する、詳細な分析を行います。我々は、複数の専門家ではなく、エンコーダ出力のトークン化がSoftMoEsの有効性の裏側にあるという驚くべき結果を発見した。実際、適切なスケールのシングルエキスパートであっても、トークン化によるパフォーマンス向上を維持できることを実証しています。

関連論文リスト

Unveiling Super Experts in Mixture-of-Experts Large Language Models [5.36587814108884]
わずかに活性化されたMixture-of-Experts(MoE)モデルは、大規模言語モデル(LLM)の学習能力を高めることを約束している。本稿では,モデルの前方推論において,基礎となるメカニズムにおいて重要な役割を担っている専門家の別個のサブセットを初めて発見・調査する。以上の結果から,MoE LLMはSEsに頼って注意シンクを誘導し,注意点の分布に欠かせないが,SEプルーニングによって著しく破壊されることが明らかとなった。
論文参考訳（メタデータ） (2025-07-31T06:35:33Z)
Faster MoE LLM Inference for Extremely Large Models [75.57674991584608]
きめ細かいMoEモデルは人気を集めているが、研究は限られている。アクティベートされた専門家の数を削減すれば、特定のシナリオにおける大幅な効率改善につながる可能性がある。性能劣化を伴わずにスループットを少なくとも10%向上させることができる。
論文参考訳（メタデータ） (2025-05-06T13:41:17Z)
Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文参考訳（メタデータ） (2025-04-08T00:49:08Z)
Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文参考訳（メタデータ） (2025-03-11T14:15:01Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文参考訳（メタデータ） (2025-02-18T15:09:58Z)
Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time [1.1655046053160683]
本稿では,Large Language Models(LLMs)のMixture-of-Expertsアーキテクチャを拡張する手法を提案する。 MoTEは、推論時間中のLLMにおける有意義で集中的な振る舞い変化を可能にする。
論文参考訳（メタデータ） (2025-02-16T12:24:39Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文参考訳（メタデータ） (2024-07-04T20:59:20Z)
Mixture of Experts in a Mixture of RL settings [15.124698782503248]
ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、MoEsはDeep Reinforcement Learning(DRL)の性能を向上させることができることを示す。 DRL設定におけるMoEsの非定常性対応能力について,マルチタスクトレーニングによる「増幅された」非定常性を用いた検討を行った。
論文参考訳（メタデータ） (2024-06-26T15:15:15Z)
UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T14:37:42Z)
Merging Experts into One: Improving Computational Efficiency of Mixture of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか? そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文参考訳（メタデータ） (2023-10-15T13:28:42Z)
Boosting Adversarial Robustness From The Perspective of Effective Margin Regularization [58.641705224371876]
ディープニューラルネットワーク(DNN)の敵対的脆弱性は、ここ数年で積極的に研究されている。本稿では,クロスエントロピー損失のスケール変動特性について検討する。提案した有効マージン正則化(EMR)は,大きな有効マージンを学習し,標準トレーニングと対向トレーニングの両方において対向的ロバスト性を高めることを示す。
論文参考訳（メタデータ） (2022-10-11T03:16:56Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)
Dissecting U-net for Seismic Application: An In-Depth Study on Deep Learning Multiple Removal [3.058685580689605]
地震処理は、しばしばデータ収集時に現れる多重を抑圧する必要がある。我々は、その使い方の複雑さを減らしながら、競争力のある結果を提供するディープラーニングベースの代替案を提示します。
論文参考訳（メタデータ） (2022-06-24T07:16:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。