論文の概要: IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control
- arxiv url: http://arxiv.org/abs/2306.00867v1
- Date: Thu, 1 Jun 2023 16:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:37:02.051776
- Title: IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control
- Title(参考訳): IQL-TD-MPC:階層モデル予測制御のための暗黙Qラーニング
- Authors: Rohan Chitnis, Yingchen Xu, Bobak Hashemi, Lucas Lehnert, Urun Dogan,
Zheqing Zhu, Olivier Delalleau
- Abstract要約: Inlicit Q-Learning (IQL)を用いて、モデル予測制御(TD-MPC)のための最先端の時間差学習を拡張するオフラインモデルベースRLアルゴリズムであるIQL-TD-MPCを導入する。
具体的には、時間的に抽象的なIQL-TD-MPCマネージャを事前トレーニングして、計画を通じて、ほぼサブゴールに対応する“インテリジェントな埋め込み”を予測する。
IQL-TD-MPCマネージャが生成するインテント埋め込みによる状態表現の増強は、市販のオフラインRLエージェントを著しく改善することを示した。
- 参考スコア(独自算出の注目度): 8.374040635931298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (RL) has shown great promise due to its
sample efficiency, but still struggles with long-horizon sparse-reward tasks,
especially in offline settings where the agent learns from a fixed dataset. We
hypothesize that model-based RL agents struggle in these environments due to a
lack of long-term planning capabilities, and that planning in a temporally
abstract model of the environment can alleviate this issue. In this paper, we
make two key contributions: 1) we introduce an offline model-based RL
algorithm, IQL-TD-MPC, that extends the state-of-the-art Temporal Difference
Learning for Model Predictive Control (TD-MPC) with Implicit Q-Learning (IQL);
2) we propose to use IQL-TD-MPC as a Manager in a hierarchical setting with any
off-the-shelf offline RL algorithm as a Worker. More specifically, we pre-train
a temporally abstract IQL-TD-MPC Manager to predict "intent embeddings", which
roughly correspond to subgoals, via planning. We empirically show that
augmenting state representations with intent embeddings generated by an
IQL-TD-MPC manager significantly improves off-the-shelf offline RL agents'
performance on some of the most challenging D4RL benchmark tasks. For instance,
the offline RL algorithms AWAC, TD3-BC, DT, and CQL all get zero or near-zero
normalized evaluation scores on the medium and large antmaze tasks, while our
modification gives an average score over 40.
- Abstract(参考訳): モデルベース強化学習(rl)はそのサンプル効率のために大きな期待が持たれているが、特にエージェントが固定データセットから学習するオフライン設定では、長いホリゾンスパースリワードタスクに苦しめられている。
モデルベースRLエージェントは、長期計画能力の欠如によりこれらの環境に苦慮し、環境の時間的抽象モデルにおける計画がこの問題を軽減することができると仮定する。
本稿では,2つの重要な貢献を行う。
1)モデル予測制御(td-mpc)のための最先端時間差学習を暗黙的q-learning(iql)で拡張するオフラインモデルベースrlアルゴリズムiql-td-mpcを提案する。
2) IQL-TD-MPCをマネージャとして,市販のオフラインRLアルゴリズムをWorkerとして階層的に使用することを提案する。
具体的には、時間的に抽象化されたiql-td-mpcマネージャを事前トレーニングして、プランニングを通じて、おおよそサブゴールに相当する"intent embeddeds"を予測します。
IQL-TD-MPCマネージャによって生成されるインテント埋め込みによる状態表現の増大は、最も困難なD4RLベンチマークタスクにおいて、オフザシェルフのオフラインRLエージェントのパフォーマンスを著しく向上させる。
例えば、オフラインのRLアルゴリズムであるAWAC、TD3-BC、DT、CQLはいずれも、中規模および大規模なAntmazeタスクでゼロまたはほぼゼロの正規化評価スコアを取得します。
関連論文リスト
- PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer [47.924941959320996]
我々はPlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。
PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。
低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
論文 参考訳(メタデータ) (2024-06-10T20:59:53Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - When should we prefer Decision Transformers for Offline Reinforcement
Learning? [29.107029606830015]
オフラインRLのための3つの一般的なアルゴリズムは、保守的Q-Learning(CQL)、振舞いクローン(BC)、決定変換器(DT)である。
本稿では,これらのアルゴリズムの性能を,一般的なD4RLとロブミミシティのベンチマークで検証することによって実証的に検討する。
DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。
論文 参考訳(メタデータ) (2023-05-23T22:19:14Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。