Fugu-MT 論文翻訳(概要): Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL

論文の概要: Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL

arxiv url: http://arxiv.org/abs/2209.03993v1
Date: Thu, 8 Sep 2022 18:26:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-12 12:52:14.848553
Title: Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL
Title（参考訳）: Q-learning Decision Transformer: オフラインRLにおける条件列モデリングのための動的プログラミングの活用
Authors: Taku Yamagata, Ahmed Khalil and Raul Santos-Rodriguez (Intelligent System Laboratory, University of Bristol)
Abstract要約: Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。 DTは縫合能力に欠ける -- 準最適軌道から最適なポリシーを学ぶオフラインRLにとって重要な能力の1つだ。動的プログラミング(Q-learning)の利点を活用して,DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have shown that tackling offline reinforcement learning (RL) with a conditional policy produces promising results by converting the RL task to a supervised learning task. Decision Transformer (DT) combines the conditional policy approach and Transformer architecture to show competitive performance against several benchmarks. However, DT lacks stitching ability -- one of the critical abilities for offline RL that learns the optimal policy from sub-optimal trajectories. The issue becomes significant when the offline dataset only contains sub-optimal trajectories. On the other hand, the conventional RL approaches based on Dynamic Programming (such as Q-learning) do not suffer the same issue; however, they suffer from unstable learning behaviours, especially when it employs function approximation in an off-policy learning setting. In this paper, we propose Q-learning Decision Transformer (QDT) that addresses the shortcomings of DT by leveraging the benefit of Dynamic Programming (Q-learning). QDT utilises the Dynamic Programming (Q-learning) results to relabel the return-to-go in the training data. We then train the DT with the relabelled data. Our approach efficiently exploits the benefits of these two approaches and compensates for each other's shortcomings to achieve better performance. We demonstrate the issue of DT and the advantage of QDT in a simple environment. We also evaluate QDT in the more complex D4RL benchmark showing good performance gains.
Abstract（参考訳）: 近年の研究では,RLタスクを教師付き学習タスクに変換することで,オフライン強化学習(RL)に条件付きポリシを組み込むことで,有望な結果が得られることが示されている。 Decision Transformer (DT)は条件付きポリシーアプローチとTransformerアーキテクチャを組み合わせて、いくつかのベンチマークに対する競合性能を示す。しかしdtは縫い付け能力に欠けており、サブ最適軌道から最適なポリシーを学ぶオフラインrlの重要な能力の1つである。オフラインデータセットが最適下行のみを含む場合、この問題は重要になる。一方、動的プログラミングに基づく従来のrlアプローチ(q-learningなど)は、同じ問題に苦しめていないが、特にオフポリシー学習環境で関数近似を用いる場合、不安定な学習行動に苦しむ。本稿では、動的プログラミング(Q-learning)の利点を利用して、DTの欠点に対処するQ-learning Decision Transformer(QDT)を提案する。 qdtは、動的プログラミング(q-learning)の結果を利用して、トレーニングデータ内の復帰をリラベルする。次に、遅延データでDTをトレーニングします。我々のアプローチは、これらの2つのアプローチの利点を効果的に活用し、より良いパフォーマンスを達成するために互いの欠点を補う。簡単な環境で、DTの問題とQDTの利点を実証する。また,より複雑なD4RLベンチマークでQDTを評価し,良好な性能向上を示した。

関連論文リスト

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。 ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2025-02-01T03:04:53Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。 Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文参考訳（メタデータ） (2024-09-12T14:10:22Z)
Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-06-20T03:02:49Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。 1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文参考訳（メタデータ） (2023-04-18T16:23:15Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。