論文の概要: Utilizing Evolution Strategies to Train Transformers in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.13883v1
- Date: Thu, 23 Jan 2025 17:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:34.960990
- Title: Utilizing Evolution Strategies to Train Transformers in Reinforcement Learning
- Title(参考訳): 強化学習における変圧器教育への進化戦略の利用
- Authors: Matyáš Lorenc,
- Abstract要約: 本稿では,強化学習環境におけるトランスフォーマーアーキテクチャに基づくエージェントの学習方法について検討する。
我々は,OpenAIの高度並列化可能な進化戦略を用いて,ヒューマノイド環境およびアタリゲームにおいて,決定変換器を訓練する実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We explore a capability of evolution strategies to train an agent with its policy based on a transformer architecture in a reinforcement learning setting. We performed experiments using OpenAI's highly parallelizable evolution strategy to train Decision Transformer in Humanoid locomotion environment and in the environment of Atari games, testing the ability of this black-box optimization technique to train even such relatively large and complicated models (compared to those previously tested in the literature). We also proposed a method to aid the training by first pretraining the model before using the OpenAI-ES to train it further, and tested its effectiveness. The examined evolution strategy proved to be, in general, capable of achieving strong results and managed to obtain high-performing agents. Therefore, the pretraining was shown to be unnecessary; yet still, it helped us observe and formulate several further insights.
- Abstract(参考訳): 本稿では,強化学習環境におけるトランスフォーマーアーキテクチャに基づくエージェントの学習方法について検討する。
我々は,OpenAIの高度並列化可能な進化戦略を用いて,ヒューマノイド移動環境およびアタリゲーム環境における決定変換器の訓練を行い,このブラックボックス最適化技術を用いて,比較的大規模で複雑なモデル(文献で以前に検証されたものと比較して)の訓練を行う実験を行った。
また,OpenAI-ESを用いてトレーニングを行う前に,まずモデルの事前訓練を行うことにより,トレーニングを支援する方法を提案し,その有効性を検証した。
検討された進化戦略は, 一般に強い結果が得られ, 高い性能を有する薬剤を得ることができた。
そのため、事前学習は不要であることが判明したが、それでもいくつかの洞察を観察・定式化するのに役立った。
関連論文リスト
- DODT: Enhanced Online Decision Transformer Learning through Dreamer's Actor-Critic Trajectory Forecasting [37.334947053450996]
本稿では,Dreamerアルゴリズムの予測軌道生成能力とオンライン決定変換器の適応強度を組み合わせた新しい手法を提案する。
提案手法は,Dreamer-produced trajectories が変換器の文脈決定を促進させる並列学習を可能にする。
論文 参考訳(メタデータ) (2024-10-15T07:27:56Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Automatic Instruction Evolving for Large Language Models [93.52437926313621]
Auto Evol-Instructは、人間の努力なしに大規模な言語モデルを使用して命令データセットを進化させるエンドツーエンドフレームワークである。
実験の結果, Auto Evol-Instruct で最適化された最良の手法は, 様々なベンチマークにおいて, 人為的に設計した手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-02T15:09:00Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Automated Progressive Learning for Efficient Training of Vision
Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。
プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。
本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文 参考訳(メタデータ) (2022-03-28T05:37:08Z) - Shaped Policy Search for Evolutionary Strategies using Waypoints [17.8055398673228]
我々はブラックボックス法、特に進化戦略(ES)の探索を改善しようとしている。
ロールアウト/評価時に得られた軌跡から得られた状態-作用対を用いてエージェントのダイナミクスを学習する。
学習したダイナミクスは、トレーニングを高速化する最適化手順で使用される。
論文 参考訳(メタデータ) (2021-05-30T22:15:06Z) - Empirical Evaluation of Supervision Signals for Style Transfer Models [44.39622949370144]
本研究は,トレーニング中に指導信号を提供する支配的な最適化パラダイムを実証的に比較する。
バックトランスレーションにはモデル固有の制限があり、トレーニングスタイルのトランスファーモデルを阻害する。
また、私たちの知識では、スタイル転送のタスクで経験的に評価されていない機械翻訳コミュニティで人気のあるテクニックである最小リスクトレーニングを実験しています。
論文 参考訳(メタデータ) (2021-01-15T15:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。