論文の概要: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- arxiv url: http://arxiv.org/abs/2209.03993v4
- Date: Thu, 25 May 2023 16:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:57:10.184312
- Title: Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL
- Title(参考訳): Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用
- Authors: Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent
System Laboratory, University of Bristol)
- Abstract要約: 決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that tackling offline reinforcement learning (RL)
with a conditional policy produces promising results. The Decision Transformer
(DT) combines the conditional policy approach and a transformer architecture,
showing competitive performance against several benchmarks. However, DT lacks
stitching ability -- one of the critical abilities for offline RL to learn the
optimal policy from sub-optimal trajectories. This issue becomes particularly
significant when the offline dataset only contains sub-optimal trajectories. On
the other hand, the conventional RL approaches based on Dynamic Programming
(such as Q-learning) do not have the same limitation; however, they suffer from
unstable learning behaviours, especially when they rely on function
approximation in an off-policy learning setting. In this paper, we propose the
Q-learning Decision Transformer (QDT) to address the shortcomings of DT by
leveraging the benefits of Dynamic Programming (Q-learning). It utilises the
Dynamic Programming results to relabel the return-to-go in the training data to
then train the DT with the relabelled data. Our approach efficiently exploits
the benefits of these two approaches and compensates for each other's
shortcomings to achieve better performance. We empirically show these in both
simple toy environments and the more complex D4RL benchmark, showing
competitive performance gains.
- Abstract(参考訳): 近年の研究では、オフライン強化学習(RL)に条件付きポリシーを組み込むことが有望な結果をもたらすことが示されている。
Decision Transformer (DT)は条件付きポリシーアプローチとトランスフォーマーアーキテクチャを組み合わせることで、いくつかのベンチマークに対する競合性能を示す。
しかし、DTは縫合能力に欠けており、オフラインのRLが準最適軌道から最適なポリシーを学ぶための重要な能力の1つである。
この問題は、オフラインデータセットが準最適軌道のみを含む場合、特に重要になる。
一方、動的プログラミング(q-learningなど)に基づく従来のrlアプローチは、同じ制限を持たないが、不安定な学習行動、特にオフポリシー学習環境における関数近似に依存する場合には、問題となる。
本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
動的プログラミングの結果を利用して、トレーニングデータの戻り行をリラベルし、再ラベルされたデータでdtをトレーニングする。
我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。
単純な玩具環境とより複雑なD4RLベンチマークの両方でこれを実証的に示す。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。