論文の概要: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- arxiv url: http://arxiv.org/abs/2209.03993v4
- Date: Thu, 25 May 2023 16:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:57:10.184312
- Title: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- Title(参考訳): Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用
- Authors: Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent
System Laboratory, University of Bristol)
- Abstract要約: 決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that tackling offline reinforcement learning (RL)
with a conditional policy produces promising results. The Decision Transformer
(DT) combines the conditional policy approach and a transformer architecture,
showing competitive performance against several benchmarks. However, DT lacks
stitching ability -- one of the critical abilities for offline RL to learn the
optimal policy from sub-optimal trajectories. This issue becomes particularly
significant when the offline dataset only contains sub-optimal trajectories. On
the other hand, the conventional RL approaches based on Dynamic Programming
(such as Q-learning) do not have the same limitation; however, they suffer from
unstable learning behaviours, especially when they rely on function
approximation in an off-policy learning setting. In this paper, we propose the
Q-learning Decision Transformer (QDT) to address the shortcomings of DT by
leveraging the benefits of Dynamic Programming (Q-learning). It utilises the
Dynamic Programming results to relabel the return-to-go in the training data to
then train the DT with the relabelled data. Our approach efficiently exploits
the benefits of these two approaches and compensates for each other's
shortcomings to achieve better performance. We empirically show these in both
simple toy environments and the more complex D4RL benchmark, showing
competitive performance gains.
- Abstract(参考訳): 近年の研究では、オフライン強化学習(RL)に条件付きポリシーを組み込むことが有望な結果をもたらすことが示されている。
Decision Transformer (DT)は条件付きポリシーアプローチとトランスフォーマーアーキテクチャを組み合わせることで、いくつかのベンチマークに対する競合性能を示す。
しかし、DTは縫合能力に欠けており、オフラインのRLが準最適軌道から最適なポリシーを学ぶための重要な能力の1つである。
この問題は、オフラインデータセットが準最適軌道のみを含む場合、特に重要になる。
一方、動的プログラミング(q-learningなど)に基づく従来のrlアプローチは、同じ制限を持たないが、不安定な学習行動、特にオフポリシー学習環境における関数近似に依存する場合には、問題となる。
本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
動的プログラミングの結果を利用して、トレーニングデータの戻り行をリラベルし、再ラベルされたデータでdtをトレーニングする。
我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。
単純な玩具環境とより複雑なD4RLベンチマークの両方でこれを実証的に示す。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。