論文の概要: Mixture of Experts in a Mixture of RL settings
- arxiv url: http://arxiv.org/abs/2406.18420v1
- Date: Wed, 26 Jun 2024 15:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:00:05.280583
- Title: Mixture of Experts in a Mixture of RL settings
- Title(参考訳): RL設定の混合におけるエキスパートの混合
- Authors: Timon Willi, Johan Obando-Ceron, Jakob Foerster, Karolina Dziugaite, Pablo Samuel Castro,
- Abstract要約: ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、MoEsはDeep Reinforcement Learning(DRL)の性能を向上させることができることを示す。
DRL設定におけるMoEsの非定常性対応能力について,マルチタスクトレーニングによる「増幅された」非定常性を用いた検討を行った。
- 参考スコア(独自算出の注目度): 15.124698782503248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixtures of Experts (MoEs) have gained prominence in (self-)supervised learning due to their enhanced inference efficiency, adaptability to distributed training, and modularity. Previous research has illustrated that MoEs can significantly boost Deep Reinforcement Learning (DRL) performance by expanding the network's parameter count while reducing dormant neurons, thereby enhancing the model's learning capacity and ability to deal with non-stationarity. In this work, we shed more light on MoEs' ability to deal with non-stationarity and investigate MoEs in DRL settings with "amplified" non-stationarity via multi-task training, providing further evidence that MoEs improve learning capacity. In contrast to previous work, our multi-task results allow us to better understand the underlying causes for the beneficial effect of MoE in DRL training, the impact of the various MoE components, and insights into how best to incorporate them in actor-critic-based DRL networks. Finally, we also confirm results from previous work.
- Abstract(参考訳): ミキチャー・オブ・エキスパート(MoE)は、推論効率の向上、分散トレーニングへの適応性、モジュール性により、(自己)教師付き学習において注目されている。
従来の研究は、ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、モデルの学習能力と非定常性を扱う能力を高めることで、MoEsがDeep Reinforcement Learning (DRL)のパフォーマンスを著しく向上させることができることを示した。
本研究では,非定常性に対処するMoEsの能力について,マルチタスクトレーニングを通じて,DRL設定におけるMoEsの「増幅された」非定常性について検討し,MoEsが学習能力を向上させることのさらなる証拠を提供する。
従来の研究とは対照的に、我々のマルチタスクの結果は、DRLトレーニングにおけるMoEの有益な影響、様々なMoEコンポーネントの影響、そしてアクター批判に基づくDRLネットワークにそれらを組み込むのに最適な方法に関する洞察の根底にある原因をより深く理解することができる。
最後に、過去の研究結果も確認する。
関連論文リスト
- FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - The State of Sparse Training in Deep Reinforcement Learning [23.034856834801346]
スパースニューラルネットワークの使用は近年急速に増加しており、特にコンピュータビジョンにおいてである。
彼らの魅力は、トレーニングと保存に必要なパラメータの削減と、学習効率の向上にある。
我々は,様々な深層強化学習エージェントや環境に,既存のスパーストレーニング技術を応用するための体系的な調査を行う。
論文 参考訳(メタデータ) (2022-06-17T14:08:00Z) - Uniform State Abstraction For Reinforcement Learning [6.624726878647541]
マルチグリッド強化学習(MultiGrid Reinforcement Learning, MRL)は, エージェントと環境との相互作用から, ポテンシャル関数の形で抽象的な知識を学習できることを実証した。
本稿では,DQN(Deep Q-Networks)のような最新のディープラーニングアルゴリズムを活用するためにMRLを拡張し改良する。
論文 参考訳(メタデータ) (2020-04-06T18:13:08Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。