論文の概要: Contextual Transformer for Offline Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.08016v1
- Date: Tue, 15 Nov 2022 10:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:32:38.598633
- Title: Contextual Transformer for Offline Meta Reinforcement Learning
- Title(参考訳): オフラインメタ強化学習のためのコンテクストトランスフォーマ
- Authors: Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung,
Haifeng Zhang, Jun Wang, Yali Du and Yaodong Yang
- Abstract要約: シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
- 参考スコア(独自算出の注目度): 16.587320914107128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pretrain-finetuning paradigm in large-scale sequence models has made
significant progress in natural language processing and computer vision tasks.
However, such a paradigm is still hindered by several challenges in
Reinforcement Learning (RL), including the lack of self-supervised pretraining
algorithms based on offline data and efficient fine-tuning/prompt-tuning over
unseen downstream tasks. In this work, we explore how prompts can improve
sequence modeling-based offline reinforcement learning (offline-RL) algorithms.
Firstly, we propose prompt tuning for offline RL, where a context vector
sequence is concatenated with the input to guide the conditional policy
generation. As such, we can pretrain a model on the offline dataset with
self-supervised loss and learn a prompt to guide the policy towards desired
actions. Secondly, we extend our framework to Meta-RL settings and propose
Contextual Meta Transformer (CMT); CMT leverages the context among different
tasks as the prompt to improve generalization on unseen tasks. We conduct
extensive experiments across three different offline-RL settings: offline
single-agent RL on the D4RL dataset, offline Meta-RL on the MuJoCo benchmark,
and offline MARL on the SMAC benchmark. Superior results validate the strong
performance, and generality of our methods.
- Abstract(参考訳): 大規模シーケンスモデルの事前調整パラダイムは、自然言語処理とコンピュータビジョンタスクにおいて大きな進歩を遂げた。
しかし、このパラダイムは、オフラインデータに基づく自己教師付き事前学習アルゴリズムの欠如や、見当たらない下流タスクに対する効率的な微調整/プロンプトチューニングなど、強化学習(RL)におけるいくつかの課題によって依然として妨げられている。
本研究では,シーケンスモデリングに基づくオフライン強化学習(オフライン-RL)アルゴリズムを改良する方法について検討する。
まず,条件付きポリシー生成のガイドとして,コンテキストベクトル列と入力を結合したオフラインrlのプロンプトチューニングを提案する。
そのため、オフラインデータセット上のモデルを自己監督的損失で事前訓練し、望ましい行動に向けてポリシーを導くプロンプトを学ぶことができる。
次に、メタrl設定にフレームワークを拡張し、コンテキストメタトランスフォーマ(cmt)を提案する。cmtは、目に見えないタスクの一般化を促進するために、異なるタスク間のコンテキストを活用する。
D4RLデータセットのオフライン単一エージェントRL、MuJoCoベンチマークのオフラインメタRL、SMACベンチマークのオフラインMARLである。
優れた結果は、我々の方法の強力な性能と汎用性を検証する。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Offline Meta-Reinforcement Learning with Advantage Weighting [125.21298190780259]
本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。
オフラインメタRLは、修正済みデータの大規模なバッチ上でモデルを事前学習する、広く成功した教師付き学習戦略に類似している。
本稿では,メタトレーニングの内ループと外ループの両方に対して,シンプルかつ教師付き回帰目標を用いた最適化に基づくメタ学習アルゴリズムである,アドバンテージ重み付きメタアクタ批判(MACAW)を提案する。
論文 参考訳(メタデータ) (2020-08-13T17:57:14Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。