論文の概要: Utilizing Novelty-based Evolution Strategies to Train Transformers in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.06301v1
- Date: Mon, 10 Feb 2025 09:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:48.587600
- Title: Utilizing Novelty-based Evolution Strategies to Train Transformers in Reinforcement Learning
- Title(参考訳): 新規性に基づく進化戦略を活用した強化学習における変圧器の訓練
- Authors: Matyáš Lorenc,
- Abstract要約: NS-ESおよびNSR-ESアルゴリズムであるOpenAI-ESの新規性に基づく変種を評価する。
また、事前訓練されたモデルによるトレーニングをシードすることで、より大規模なモデルの新規性に基づくトレーニングを加速できるかどうかも検証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we experiment with novelty-based variants of OpenAI-ES, the NS-ES and NSR-ES algorithms, and evaluate their effectiveness in training complex, transformer-based architectures designed for the problem of reinforcement learning such as Decision Transformers. We also test if we can accelerate the novelty-based training of these larger models by seeding the training by a pretrained models. By this, we build on our previous work, where we tested the ability of evolution strategies - specifically the aforementioned OpenAI-ES - to train the Decision Transformer architecture. The results were mixed. NS-ES showed progress, but it would clearly need many more iterations for it to yield interesting results. NSR-ES, on the other hand, proved quite capable of being straightforwardly used on larger models, since its performance appears as similar between the feed-forward model and Decision Transformer, as it was for the OpenAI-ES in our previous work.
- Abstract(参考訳): 本稿では,OpenAI-ES,NS-ES,NSR-ESアルゴリズムの新規な変種を実験し,決定変換器などの強化学習問題に対する複雑なトランスフォーマーベースアーキテクチャの訓練における有効性を評価する。
また、事前訓練されたモデルによるトレーニングをシードすることで、これらの大きなモデルの新規性に基づくトレーニングを加速できるかどうかも検証する。
これによって、私たちは以前の作業に基づいて、進化戦略(特に前述のOpenAI-ES)をテストして、決定変換アーキテクチャをトレーニングしました。
結果はまちまちだった。
NS-ESは進歩を見せたが、興味深い結果を得るためには、明らかに多くのイテレーションが必要である。
一方、NSR-ESはフィードフォワードモデルとDecision Transformerとよく似た性能を示すため、より大きなモデルで直接利用できることが証明された。
関連論文リスト
- Utilizing Evolution Strategies to Train Transformers in Reinforcement Learning [0.0]
本稿では,強化学習環境におけるトランスフォーマーアーキテクチャに基づくエージェントの学習方法について検討する。
我々は,OpenAIの高度並列化可能な進化戦略を用いて,ヒューマノイド環境およびアタリゲームにおいて,決定変換器を訓練する実験を行った。
論文 参考訳(メタデータ) (2025-01-23T17:56:40Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Exploring Transformers for Behavioural Biometrics: A Case Study in Gait
Recognition [0.7874708385247353]
本稿ではトランスフォーマーに基づく新しい歩行生体認証システムについて検討し,提案する。
実験フレームワークでは、最先端アーキテクチャ(Vanilla、Informer、Autoformer、Block-Recurrent Transformer、THAT)が検討されている。
代表的な2つの公開データベースwuGAITとOU-ISIRを用いて実験を行った。
論文 参考訳(メタデータ) (2022-06-03T08:08:40Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。