論文の概要: Sequence Modeling is a Robust Contender for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2305.14550v1
- Date: Tue, 23 May 2023 22:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:37:57.372129
- Title: Sequence Modeling is a Robust Contender for Offline Reinforcement
Learning
- Title(参考訳): シーケンスモデリングはオフライン強化学習の強固な候補である
- Authors: Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani,
Amy Zhang
- Abstract要約: オフラインRLの3つの主要なパラダイムは、Q-Learning、Imitation Learning、Sequence Modelingである。
一般的なD4RLおよびロボミミックベンチマークにおける代表アルゴリズムの性能について検討した。
- 参考スコア(独自算出の注目度): 24.551465814633328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) allows agents to learn effective,
return-maximizing policies from a static dataset. Three major paradigms for
offline RL are Q-Learning, Imitation Learning, and Sequence Modeling. A key
open question is: which paradigm is preferred under what conditions? We study
this question empirically by exploring the performance of representative
algorithms -- Conservative Q-Learning (CQL), Behavior Cloning (BC), and
Decision Transformer (DT) -- across the commonly used D4RL and Robomimic
benchmarks. We design targeted experiments to understand their behavior
concerning data suboptimality and task complexity. Our key findings are: (1)
Sequence Modeling requires more data than Q-Learning to learn competitive
policies but is more robust; (2) Sequence Modeling is a substantially better
choice than both Q-Learning and Imitation Learning in sparse-reward and
low-quality data settings; and (3) Sequence Modeling and Imitation Learning are
preferable as task horizon increases, or when data is obtained from suboptimal
human demonstrators. Based on the overall strength of Sequence Modeling, we
also investigate architectural choices and scaling trends for DT on Atari and
D4RL and make design recommendations. We find that scaling the amount of data
for DT by 5x gives a 2.5x average score improvement on Atari.
- Abstract(参考訳): オフライン強化学習(RL)により、エージェントは静的データセットから効率よく、戻り値の最大化ポリシーを学習できる。
オフラインRLの3つの主要なパラダイムは、Q-Learning、Imitation Learning、Sequence Modelingである。
重要なオープンな疑問は、どの条件でどのパラダイムが望ましいか、ということです。
本稿では、一般的なD4RLおよびロボミミックベンチマークを用いて、代表アルゴリズムである保守的Qラーニング(CQL)、行動クローン(BC)、決定変換(DT)のパフォーマンスを実証的に検討する。
我々は,データ・サブ最適性やタスクの複雑さに関する行動を理解するために,ターゲット実験を設計する。
その結果,(1) シーケンスモデリングはq-learningよりも多くのデータを必要とするが,より堅牢である,(2) シーケンスモデリングはスパース・リワードと低品質のデータ設定において,q-learningと模倣学習のどちらよりもかなり優れた選択である,(3) シーケンスモデリングと模倣学習はタスクホライズンの増加や,あるいはサブオプティカルな人間のデモストラクタから得られる場合において望ましいことがわかった。
シーケンスモデリングの全体的な強みに基づいて,atari と d4rl 上で dt のアーキテクチャ選択とスケーリングトレンドを調査し,設計の推奨を行う。
DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control [8.374040635931298]
Inlicit Q-Learning (IQL)を用いて、モデル予測制御(TD-MPC)のための最先端の時間差学習を拡張するオフラインモデルベースRLアルゴリズムであるIQL-TD-MPCを導入する。
具体的には、時間的に抽象的なIQL-TD-MPCマネージャを事前トレーニングして、計画を通じて、ほぼサブゴールに対応する“インテリジェントな埋め込み”を予測する。
IQL-TD-MPCマネージャが生成するインテント埋め込みによる状態表現の増強は、市販のオフラインRLエージェントを著しく改善することを示した。
論文 参考訳(メタデータ) (2023-06-01T16:24:40Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Skill Decision Transformer [9.387749254963595]
大規模言語モデル(LLM)はオフライン強化学習(RL)に驚くほど効果的である
一般化決定変換器(GDT)は、情報統計の形で将来の軌跡情報を利用することで、オフライン軌跡データからより多くの情報を抽出できることを示した。
Skill DTはオフライン状態マージマッチング(SMM)だけでなく、簡単にサンプル化できる記述的動作の発見も可能であることを示す。
論文 参考訳(メタデータ) (2023-01-31T11:52:46Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。