論文の概要: When should we prefer Decision Transformers for Offline Reinforcement
Learning?
- arxiv url: http://arxiv.org/abs/2305.14550v3
- Date: Mon, 11 Mar 2024 21:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:15:44.307226
- Title: When should we prefer Decision Transformers for Offline Reinforcement
Learning?
- Title(参考訳): オフライン強化学習に意思決定トランスフォーマーをいつ使うべきか?
- Authors: Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani,
Amy Zhang
- Abstract要約: オフラインRLのための3つの一般的なアルゴリズムは、保守的Q-Learning(CQL)、振舞いクローン(BC)、決定変換器(DT)である。
本稿では,これらのアルゴリズムの性能を,一般的なD4RLとロブミミシティのベンチマークで検証することによって実証的に検討する。
DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。
- 参考スコア(独自算出の注目度): 29.107029606830015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) allows agents to learn effective,
return-maximizing policies from a static dataset. Three popular algorithms for
offline RL are Conservative Q-Learning (CQL), Behavior Cloning (BC), and
Decision Transformer (DT), from the class of Q-Learning, Imitation Learning,
and Sequence Modeling respectively. A key open question is: which algorithm is
preferred under what conditions? We study this question empirically by
exploring the performance of these algorithms across the commonly used D4RL and
Robomimic benchmarks. We design targeted experiments to understand their
behavior concerning data suboptimality, task complexity, and stochasticity. Our
key findings are: (1) DT requires more data than CQL to learn competitive
policies but is more robust; (2) DT is a substantially better choice than both
CQL and BC in sparse-reward and low-quality data settings; (3) DT and BC are
preferable as task horizon increases, or when data is obtained from human
demonstrators; and (4) CQL excels in situations characterized by the
combination of high stochasticity and low data quality. We also investigate
architectural choices and scaling trends for DT on Atari and D4RL and make
design/scaling recommendations. We find that scaling the amount of data for DT
by 5x gives a 2.5x average score improvement on Atari.
- Abstract(参考訳): オフライン強化学習(RL)により、エージェントは静的データセットから効率よく、戻り値の最大化ポリシーを学習できる。
オフラインRLのための3つの一般的なアルゴリズムは、それぞれQ-Learning(CQL)、Behavior Cloning(BC)、Decision Transformer(DT)であり、それぞれQ-Learning(QL)、Imitation Learning(Imitation Learning)、Sequence Modeling(シーケンスモデリング)のクラスである。
鍵となる疑問は、どのアルゴリズムがどの条件で推奨されるかである。
本稿では,D4RL と Robomimic ベンチマークを用いて,これらのアルゴリズムの性能を実証的に検討する。
我々は,データ準最適性,タスク複雑性,確率性に関する行動を理解するために,対象とする実験を設計する。
主な発見は,(1) DT は競争政策を学ぶために CQL よりも多くのデータを必要とするが,より堅牢である,(2) DT はスパース・リワードと低品質のデータ設定において CQL と BC のどちらよりもはるかに優れた選択である,(3) DT と BC はタスク・ホライズメントの増加,あるいはヒトのデモンストレータからのデータ取得,(4) CQL は高い確率と低品質の組み合わせによって特徴づけられる状況において優れている,といったものだ。
また,atari と d4rl 上で dt のアーキテクチャ選択とスケーリングトレンドを調査し,設計/スケーリングの推奨を行う。
DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control [8.374040635931298]
Inlicit Q-Learning (IQL)を用いて、モデル予測制御(TD-MPC)のための最先端の時間差学習を拡張するオフラインモデルベースRLアルゴリズムであるIQL-TD-MPCを導入する。
具体的には、時間的に抽象的なIQL-TD-MPCマネージャを事前トレーニングして、計画を通じて、ほぼサブゴールに対応する“インテリジェントな埋め込み”を予測する。
IQL-TD-MPCマネージャが生成するインテント埋め込みによる状態表現の増強は、市販のオフラインRLエージェントを著しく改善することを示した。
論文 参考訳(メタデータ) (2023-06-01T16:24:40Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Skill Decision Transformer [9.387749254963595]
大規模言語モデル(LLM)はオフライン強化学習(RL)に驚くほど効果的である
一般化決定変換器(GDT)は、情報統計の形で将来の軌跡情報を利用することで、オフライン軌跡データからより多くの情報を抽出できることを示した。
Skill DTはオフライン状態マージマッチング(SMM)だけでなく、簡単にサンプル化できる記述的動作の発見も可能であることを示す。
論文 参考訳(メタデータ) (2023-01-31T11:52:46Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。