論文の概要: Value-Aided Conditional Supervised Learning for Offline RL
- arxiv url: http://arxiv.org/abs/2402.02017v1
- Date: Sat, 3 Feb 2024 04:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:50:25.094683
- Title: Value-Aided Conditional Supervised Learning for Offline RL
- Title(参考訳): オフラインRLのための値支援条件付き教師付き学習
- Authors: Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung
- Abstract要約: Value-Aided Conditional Supervised Learning (VCS) は、RCSLの安定性と値ベース手法の縫合能力を相乗化する手法である。
ニューラル・タンジェント・カーネル解析に基づいて、VCSはトラジェクトリ・リターンに応じてRCSLの損失関数に値補助を動的に注入する。
我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回っているだけでなく、最も高い軌道のリターンを継続的に達成している、または、しばしば上回っていることを明らかにしている。
- 参考スコア(独自算出の注目度): 21.929683225837078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has seen notable advancements through
return-conditioned supervised learning (RCSL) and value-based methods, yet each
approach comes with its own set of practical challenges. Addressing these, we
propose Value-Aided Conditional Supervised Learning (VCS), a method that
effectively synergizes the stability of RCSL with the stitching ability of
value-based methods. Based on the Neural Tangent Kernel analysis to discern
instances where value function may not lead to stable stitching, VCS injects
the value aid into the RCSL's loss function dynamically according to the
trajectory return. Our empirical studies reveal that VCS not only significantly
outperforms both RCSL and value-based methods but also consistently achieves,
or often surpasses, the highest trajectory returns across diverse offline RL
benchmarks. This breakthrough in VCS paves new paths in offline RL, pushing the
limits of what can be achieved and fostering further innovations.
- Abstract(参考訳): オフライン強化学習(RL)は、戻り条件付き教師付き学習(RCSL)と価値に基づく手法を通じて顕著な進歩を遂げてきたが、それぞれのアプローチには独自の実践的課題が伴っている。
そこで本研究では,RCSLの安定性と値ベース手法の縫合性を効果的に相乗化する手法であるVCSを提案する。
ニューラル・タンジェント・カーネル解析に基づいて、値関数が安定な縫合に繋がらないインスタンスを識別し、VCSは軌道の戻りに応じてRCSLの損失関数に動的に値補助を注入する。
我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回るだけでなく、多種多様なオフラインRLベンチマークにおける最高軌道のリターンを一貫して達成または達成していることを示している。
VCSにおけるこのブレークスルーは、オフラインRLにおける新たなパスを舗装し、達成できることの限界を押し上げ、さらなるイノベーションを促進する。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。