論文の概要: Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.12307v1
- Date: Thu, 22 Aug 2024 11:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:13:32.018788
- Title: Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるカーネル関数近似によるラベルなしデータ共有の活用
- Authors: Yen-Ru Lai, Fu-Chieh Chang, Pei-Yuan Wu,
- Abstract要約: オフライン強化学習(RL)は、固定データセットからポリシーを学ぶが、しばしば大量のデータを必要とする。
本稿では,カーネル関数近似を用いたオフラインRL法において,ラベルなしデータを利用するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.8552182839941898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) learns policies from a fixed dataset, but often requires large amounts of data. The challenge arises when labeled datasets are expensive, especially when rewards have to be provided by human labelers for large datasets. In contrast, unlabelled data tends to be less expensive. This situation highlights the importance of finding effective ways to use unlabelled data in offline RL, especially when labelled data is limited or expensive to obtain. In this paper, we present the algorithm to utilize the unlabeled data in the offline RL method with kernel function approximation and give the theoretical guarantee. We present various eigenvalue decay conditions of $\mathcal{H}_k$ which determine the complexity of the algorithm. In summary, our work provides a promising approach for exploiting the advantages offered by unlabeled data in offline RL, whilst maintaining theoretical assurances.
- Abstract(参考訳): オフライン強化学習(RL)は、固定データセットからポリシーを学ぶが、しばしば大量のデータを必要とする。
この課題は、ラベル付きデータセットが高価である場合、特に大規模なデータセットに対して、人間のラベルが報酬を提供する必要がある場合に発生する。
対照的に、不正なデータはコストが低い傾向にある。
この状況は、特にラベル付きデータが限定的または高価な場合、オフラインRLで非ラベル付きデータを使用する効果的な方法を見つけることの重要性を強調している。
本稿では,カーネル関数近似を用いたオフラインRL法において,ラベルなしデータを利用するアルゴリズムを提案し,理論的保証を与える。
アルゴリズムの複雑さを決定するために,$\mathcal{H}_k$の固有値減衰条件について述べる。
要約すると、我々の研究は、理論的保証を維持しながら、オフラインのRLでラベル付けされていないデータから得られる利点を活用するための有望なアプローチを提供する。
関連論文リスト
- Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning [31.49713012907863]
textbfCalibrated textbfLatent gtextbfUidanctextbfE (CLUE)を導入する。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
論文 参考訳(メタデータ) (2023-06-23T09:57:50Z) - The Provable Benefits of Unsupervised Data Sharing for Offline
Reinforcement Learning [25.647624787936028]
オフライン強化学習に報酬のないデータを利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。
PDSは、報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-02-27T03:35:02Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。