論文の概要: Transformers as Policies for Variable Action Environments
- arxiv url: http://arxiv.org/abs/2301.03679v1
- Date: Mon, 9 Jan 2023 21:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:26:51.593892
- Title: Transformers as Policies for Variable Action Environments
- Title(参考訳): 可変動作環境のポリシーとしてのトランスフォーマー
- Authors: Niklas Zwingenberger
- Abstract要約: 可変動作環境におけるポリシーの実行可能なアーキテクチャとして,トランスフォーマーエンコーダの有効性を示す。
我々は、Gym-$mu$RTS環境において、スクリプト付き相手に対して複数のマップに対して、近似ポリシー最適化を用いてエージェントを訓練する。
最終エージェントは、次のbest RLエージェントの計算資源の半分を使って高いリターンを達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this project we demonstrate the effectiveness of the transformer encoder
as a viable architecture for policies in variable action environments. Using
it, we train an agent using Proximal Policy Optimisation (PPO) on multiple maps
against scripted opponents in the Gym-$\mu$RTS environment. The final agent is
able to achieve a higher return using half the computational resources of the
next-best RL agent, which used the GridNet architecture.
The source code and pre-trained models are available here:
https://github.com/NiklasZ/transformers-for-variable-action-envs
- Abstract(参考訳): 本稿では,可変動作環境におけるポリシーの実行可能なアーキテクチャとして,トランスフォーマーエンコーダの有効性を示す。
そこで我々は,Gym-$\mu$RTS環境において,複数の地図に対してPPO(Proximal Policy Optimisation)を用いてエージェントを訓練する。
最後のエージェントは、GridNetアーキテクチャを使用した次世代RLエージェントの計算リソースの半分を使って、より高いリターンを達成することができる。
ソースコードと事前トレーニングされたモデルは以下の通りである。 https://github.com/NiklasZ/transformers-for-variable-action-envs
関連論文リスト
- Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。
所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。
また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文 参考訳(メタデータ) (2024-07-15T17:59:57Z) - PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators [32.937445793499776]
PoliFormerはRGBのみの屋内ナビゲーションエージェントで、エンドツーエンドでトレーニングされ、大規模に強化学習を行う。
シミュレーションで純粋に訓練されているにもかかわらず、適応せずに現実世界に一般化する。
論文 参考訳(メタデータ) (2024-06-28T17:51:10Z) - Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。
我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。
マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-19T17:39:20Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Preference Transformer: Modeling Human Preferences using Transformers
for RL [165.33887165572128]
Preference Transformerは、トランスフォーマーを使用して人間の好みをモデル化するニューラルネットワークである。
そこで,Preference Transformerは,従来のアプローチでは動作しないが,実際の人間の好みを使って様々な制御タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-02T04:24:29Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - Robust Deep Reinforcement Learning for Quadcopter Control [0.8687092759073857]
本研究では、ロバスト・マルコフ決定プロセス(RMDP)を用いてドローン制御ポリシーを訓練する。
それは、ある環境から別の環境への政策移行の間の潜在的なギャップを扱うための悲観的な最適化を選択する。
訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。
論文 参考訳(メタデータ) (2021-11-06T16:35:13Z) - StARformer: Transformer with State-Action-Reward Representations [45.62939275764248]
強化学習のためのステート・アクション・リワード変換器(StARformer)を提案する。
StARformerは局所因果関係を明示的にモデル化し、長いシーケンスでのアクション予測を改善する。
実験の結果,StARformer は Atari ベンチマークにおいて最先端の Transformer ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-12T17:55:30Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。