論文の概要: The Provable Benefits of Unsupervised Data Sharing for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.13493v1
- Date: Mon, 27 Feb 2023 03:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:49:49.034728
- Title: The Provable Benefits of Unsupervised Data Sharing for Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習における教師なしデータ共有の有用性
- Authors: Hao Hu, Yiqin Yang, Qianchuan Zhao, Chongjie Zhang
- Abstract要約: オフライン強化学習に報酬のないデータを利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。
PDSは、報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 25.647624787936028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have become crucial for advancing deep learning by
leveraging data itself to reduce the need for expensive annotations. However,
the question of how to conduct self-supervised offline reinforcement learning
(RL) in a principled way remains unclear. In this paper, we address this issue
by investigating the theoretical benefits of utilizing reward-free data in
linear Markov Decision Processes (MDPs) within a semi-supervised setting.
Further, we propose a novel, Provable Data Sharing algorithm (PDS) to utilize
such reward-free data for offline RL. PDS uses additional penalties on the
reward function learned from labeled data to prevent overestimation, ensuring a
conservative algorithm. Our results on various offline RL tasks demonstrate
that PDS significantly improves the performance of offline RL algorithms with
reward-free data. Overall, our work provides a promising approach to leveraging
the benefits of unlabeled data in offline RL while maintaining theoretical
guarantees. We believe our findings will contribute to developing more robust
self-supervised RL methods.
- Abstract(参考訳): 自己教師付きメソッドは、高価なアノテーションの必要性を減らすためにデータそのものを活用することで、ディープラーニングの進歩に不可欠になっている。
しかし、自己監督型オフライン強化学習(RL)を原則的に行う方法については、まだ不明である。
本稿では,半教師付き設定における線形マルコフ決定過程(mdps)における報酬のないデータの利用に関する理論的利点について検討する。
さらに、このような報酬のないデータをオフラインのRLに利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。
PDSはラベル付きデータから学んだ報酬関数にさらなる罰則を使用し、過大評価を防止し、保守的なアルゴリズムを保証する。
各種オフラインRLタスクにおける結果から,PSDは報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に向上することが示された。
全体として、我々の研究は、理論的保証を維持しつつ、オフラインRLにおけるラベルなしデータの利点を活用するための有望なアプローチを提供します。
我々は,より堅牢な自己教師付きRL法の開発に寄与すると信じている。
関連論文リスト
- Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning [3.8552182839941898]
オフライン強化学習(RL)は、固定データセットからポリシーを学ぶが、しばしば大量のデータを必要とする。
本稿では,カーネル関数近似を用いたオフラインRL法において,ラベルなしデータを利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-22T11:31:51Z) - CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning [31.49713012907863]
textbfCalibrated textbfLatent gtextbfUidanctextbfE (CLUE)を導入する。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
論文 参考訳(メタデータ) (2023-06-23T09:57:50Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - What can online reinforcement learning with function approximation
benefit from general coverage conditions? [53.90873926758026]
オンライン強化学習(RL)では、マルコフ決定過程(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件を使用するだけで十分である。
本研究は,より可能で一般的なカバレッジ条件を掘り下げることにより,この新たな方向性に焦点をあてる。
我々は、集中度の変化である$Lp$の変動、密度比の実現可能性、部分/レストカバレッジ条件でのトレードオフなど、さらに多くの概念を識別する。
論文 参考訳(メタデータ) (2023-04-25T14:57:59Z) - On the Role of Discount Factor in Offline Reinforcement Learning [25.647624787936028]
割引係数である$gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たす。
本稿では、理論解析によるオフラインRLにおける$gamma$の2つの異なる効果について検討する。
その結果, オフラインRLアルゴリズムの性能において, 割引係数が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2022-06-07T15:22:42Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。