論文の概要: Bootstrapped Transformer for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.08569v1
- Date: Fri, 17 Jun 2022 05:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:40:26.706412
- Title: Bootstrapped Transformer for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのブートストラップ変換器
- Authors: Kerong Wang, Hanye Zhao, Xufang Luo, Kan Ren, Weinan Zhang, Dongsheng
Li
- Abstract要約: オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.43012728924881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims at learning policies from previously
collected static trajectory data without interacting with the real environment.
Recent works provide a novel perspective by viewing offline RL as a generic
sequence generation problem, adopting sequence models such as Transformer
architecture to model distributions over trajectories, and repurposing beam
search as a planning algorithm. However, the training datasets utilized in
general offline RL tasks are quite limited and often suffer from insufficient
distribution coverage, which could be harmful to training sequence generation
models yet has not drawn enough attention in the previous works. In this paper,
we propose a novel algorithm named Bootstrapped Transformer, which incorporates
the idea of bootstrapping and leverages the learned model to self-generate more
offline data to further boost the sequence model training. We conduct extensive
experiments on two offline RL benchmarks and demonstrate that our model can
largely remedy the existing offline RL training limitations and beat other
strong baseline methods. We also analyze the generated pseudo data and the
revealed characteristics may shed some light on offline RL training. The codes
are available at https://seqml.github.io/bootorl.
- Abstract(参考訳): オフライン強化学習(RL)は,以前に収集した静的軌跡データから実環境と対話することなく,学習方針を学習することを目的とする。
最近の研究は、オフラインRLを汎用シーケンス生成問題として捉え、トランスフォーマーアーキテクチャのようなシーケンスモデルを採用して軌道上の分布をモデル化し、ビーム探索を計画アルゴリズムとして再利用することで、新しい視点を提供する。
しかし、一般のオフラインRLタスクで使用されるトレーニングデータセットは非常に限定的であり、分散カバレッジが不十分な場合が多いため、トレーニングシーケンス生成モデルには有害であるが、以前の研究では十分に注意が払われていない。
本稿では,ブートストラップの考え方を取り入れたブートストラップトランスフォーマーという新しいアルゴリズムを提案し,学習モデルを用いてオフラインデータの自動生成を行い,シーケンスモデルのトレーニングをさらに強化する。
2つのオフラインRLベンチマークで広範な実験を行い、我々のモデルが既存のオフラインRLトレーニングの制限を大幅に緩和し、他の強力なベースライン手法を克服できることを実証した。
また、生成された擬似データを分析し、その特徴がオフラインのrlトレーニングに光を当てる可能性がある。
コードはhttps://seqml.github.io/bootorl.com/で入手できる。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。