論文の概要: Value-Aided Conditional Supervised Learning for Offline RL
- arxiv url: http://arxiv.org/abs/2402.02017v1
- Date: Sat, 3 Feb 2024 04:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:50:25.094683
- Title: Value-Aided Conditional Supervised Learning for Offline RL
- Title(参考訳): オフラインRLのための値支援条件付き教師付き学習
- Authors: Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung
- Abstract要約: Value-Aided Conditional Supervised Learning (VCS) は、RCSLの安定性と値ベース手法の縫合能力を相乗化する手法である。
ニューラル・タンジェント・カーネル解析に基づいて、VCSはトラジェクトリ・リターンに応じてRCSLの損失関数に値補助を動的に注入する。
我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回っているだけでなく、最も高い軌道のリターンを継続的に達成している、または、しばしば上回っていることを明らかにしている。
- 参考スコア(独自算出の注目度): 21.929683225837078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has seen notable advancements through
return-conditioned supervised learning (RCSL) and value-based methods, yet each
approach comes with its own set of practical challenges. Addressing these, we
propose Value-Aided Conditional Supervised Learning (VCS), a method that
effectively synergizes the stability of RCSL with the stitching ability of
value-based methods. Based on the Neural Tangent Kernel analysis to discern
instances where value function may not lead to stable stitching, VCS injects
the value aid into the RCSL's loss function dynamically according to the
trajectory return. Our empirical studies reveal that VCS not only significantly
outperforms both RCSL and value-based methods but also consistently achieves,
or often surpasses, the highest trajectory returns across diverse offline RL
benchmarks. This breakthrough in VCS paves new paths in offline RL, pushing the
limits of what can be achieved and fostering further innovations.
- Abstract(参考訳): オフライン強化学習(RL)は、戻り条件付き教師付き学習(RCSL)と価値に基づく手法を通じて顕著な進歩を遂げてきたが、それぞれのアプローチには独自の実践的課題が伴っている。
そこで本研究では,RCSLの安定性と値ベース手法の縫合性を効果的に相乗化する手法であるVCSを提案する。
ニューラル・タンジェント・カーネル解析に基づいて、値関数が安定な縫合に繋がらないインスタンスを識別し、VCSは軌道の戻りに応じてRCSLの損失関数に動的に値補助を注入する。
我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回るだけでなく、多種多様なオフラインRLベンチマークにおける最高軌道のリターンを一貫して達成または達成していることを示している。
VCSにおけるこのブレークスルーは、オフラインRLにおける新たなパスを舗装し、達成できることの限界を押し上げ、さらなるイノベーションを促進する。
関連論文リスト
- Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming [22.359171999254706]
GoalConditioned Weighted Supervised Learning (GCWSL)と呼ばれる新しい高度なアルゴリズムのクラスが最近登場し、ゴール条件強化学習(RL)におけるスパース報酬による課題に対処している。
GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。
しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。
本稿では,GCの限界を克服する新しいフレームワークであるQ-learning Weighted Supervised Learning (Q-WSL)を提案する。
論文 参考訳(メタデータ) (2024-10-09T08:00:12Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z) - Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-02-17T13:22:40Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。