論文の概要: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- arxiv url: http://arxiv.org/abs/2209.03993v1
- Date: Thu, 8 Sep 2022 18:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:52:14.848553
- Title: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- Title(参考訳): Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用
- Authors: Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent
System Laboratory, University of Bristol)
- Abstract要約: Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。
DTは縫合能力に欠ける -- 準最適軌道から最適なポリシーを学ぶオフラインRLにとって重要な能力の1つだ。
動的プログラミング(Q-learning)の利点を活用して,DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that tackling offline reinforcement learning (RL)
with a conditional policy produces promising results by converting the RL task
to a supervised learning task. Decision Transformer (DT) combines the
conditional policy approach and Transformer architecture to show competitive
performance against several benchmarks. However, DT lacks stitching ability --
one of the critical abilities for offline RL that learns the optimal policy
from sub-optimal trajectories. The issue becomes significant when the offline
dataset only contains sub-optimal trajectories. On the other hand, the
conventional RL approaches based on Dynamic Programming (such as Q-learning) do
not suffer the same issue; however, they suffer from unstable learning
behaviours, especially when it employs function approximation in an off-policy
learning setting. In this paper, we propose Q-learning Decision Transformer
(QDT) that addresses the shortcomings of DT by leveraging the benefit of
Dynamic Programming (Q-learning). QDT utilises the Dynamic Programming
(Q-learning) results to relabel the return-to-go in the training data. We then
train the DT with the relabelled data. Our approach efficiently exploits the
benefits of these two approaches and compensates for each other's shortcomings
to achieve better performance. We demonstrate the issue of DT and the advantage
of QDT in a simple environment. We also evaluate QDT in the more complex D4RL
benchmark showing good performance gains.
- Abstract(参考訳): 近年の研究では,RLタスクを教師付き学習タスクに変換することで,オフライン強化学習(RL)に条件付きポリシを組み込むことで,有望な結果が得られることが示されている。
Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。
しかしdtは縫い付け能力に欠けており、サブ最適軌道から最適なポリシーを学ぶオフラインrlの重要な能力の1つである。
オフラインデータセットが最適下行のみを含む場合、この問題は重要になる。
一方、動的プログラミングに基づく従来のrlアプローチ(q-learningなど)は、同じ問題に苦しめていないが、特にオフポリシー学習環境で関数近似を用いる場合、不安定な学習行動に苦しむ。
本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
qdtは、動的プログラミング(q-learning)の結果を利用して、トレーニングデータ内の復帰をリラベルする。
次に、遅延データでDTをトレーニングします。
我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。
簡単な環境で、DTの問題とQDTの利点を実証する。
また,より複雑なD4RLベンチマークでQDTを評価し,良好な性能向上を示した。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。