論文の概要: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- arxiv url: http://arxiv.org/abs/2209.03993v1
- Date: Thu, 8 Sep 2022 18:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:52:14.848553
- Title: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- Title(参考訳): Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用
- Authors: Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent
System Laboratory, University of Bristol)
- Abstract要約: Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。
DTは縫合能力に欠ける -- 準最適軌道から最適なポリシーを学ぶオフラインRLにとって重要な能力の1つだ。
動的プログラミング(Q-learning)の利点を活用して,DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that tackling offline reinforcement learning (RL)
with a conditional policy produces promising results by converting the RL task
to a supervised learning task. Decision Transformer (DT) combines the
conditional policy approach and Transformer architecture to show competitive
performance against several benchmarks. However, DT lacks stitching ability --
one of the critical abilities for offline RL that learns the optimal policy
from sub-optimal trajectories. The issue becomes significant when the offline
dataset only contains sub-optimal trajectories. On the other hand, the
conventional RL approaches based on Dynamic Programming (such as Q-learning) do
not suffer the same issue; however, they suffer from unstable learning
behaviours, especially when it employs function approximation in an off-policy
learning setting. In this paper, we propose Q-learning Decision Transformer
(QDT) that addresses the shortcomings of DT by leveraging the benefit of
Dynamic Programming (Q-learning). QDT utilises the Dynamic Programming
(Q-learning) results to relabel the return-to-go in the training data. We then
train the DT with the relabelled data. Our approach efficiently exploits the
benefits of these two approaches and compensates for each other's shortcomings
to achieve better performance. We demonstrate the issue of DT and the advantage
of QDT in a simple environment. We also evaluate QDT in the more complex D4RL
benchmark showing good performance gains.
- Abstract(参考訳): 近年の研究では,RLタスクを教師付き学習タスクに変換することで,オフライン強化学習(RL)に条件付きポリシを組み込むことで,有望な結果が得られることが示されている。
Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。
しかしdtは縫い付け能力に欠けており、サブ最適軌道から最適なポリシーを学ぶオフラインrlの重要な能力の1つである。
オフラインデータセットが最適下行のみを含む場合、この問題は重要になる。
一方、動的プログラミングに基づく従来のrlアプローチ(q-learningなど)は、同じ問題に苦しめていないが、特にオフポリシー学習環境で関数近似を用いる場合、不安定な学習行動に苦しむ。
本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
qdtは、動的プログラミング(q-learning)の結果を利用して、トレーニングデータ内の復帰をリラベルする。
次に、遅延データでDTをトレーニングします。
我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。
簡単な環境で、DTの問題とQDTの利点を実証する。
また,より複雑なD4RLベンチマークでQDTを評価し,良好な性能向上を示した。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。