論文の概要: Sample-Efficient Policy Constraint Offline Deep Reinforcement Learning based on Sample Filtering
- arxiv url: http://arxiv.org/abs/2512.20115v1
- Date: Tue, 23 Dec 2025 07:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.784585
- Title: Sample-Efficient Policy Constraint Offline Deep Reinforcement Learning based on Sample Filtering
- Title(参考訳): サンプルフィルタリングに基づくオフライン深層強化学習における有効政策制約
- Authors: Yuanhao Chen, Qi Liu, Pengbin Chen, Zhongjian Qiao, Yanjie Li,
- Abstract要約: オフライン強化学習(RL)は、ある静的なトランジションデータセットを使用して、期待されるリターンを最大化するポリシーを学ぶことを目的としている。
本稿では,データセットのすべての遷移を利用するポリシ制約オフラインRLにおけるサンプリング手法の改善について述べる。
- 参考スコア(独自算出の注目度): 13.112727460090817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims to learn a policy that maximizes the expected return using a given static dataset of transitions. However, offline RL faces the distribution shift problem. The policy constraint offline RL method is proposed to solve the distribution shift problem. During the policy constraint offline RL training, it is important to ensure the difference between the learned policy and behavior policy within a given threshold. Thus, the learned policy heavily relies on the quality of the behavior policy. However, a problem exists in existing policy constraint methods: if the dataset contains many low-reward transitions, the learned will be contained with a suboptimal reference policy, leading to slow learning speed, low sample efficiency, and inferior performances. This paper shows that the sampling method in policy constraint offline RL that uses all the transitions in the dataset can be improved. A simple but efficient sample filtering method is proposed to improve the sample efficiency and the final performance. First, we evaluate the score of the transitions by average reward and average discounted reward of episodes in the dataset and extract the transition samples of high scores. Second, the high-score transition samples are used to train the offline RL algorithms. We verify the proposed method in a series of offline RL algorithms and benchmark tasks. Experimental results show that the proposed method outperforms baselines.
- Abstract(参考訳): オフライン強化学習(RL)は、ある静的なトランジションデータセットを使用して、期待されるリターンを最大化するポリシーを学ぶことを目的としている。
しかし、オフラインRLは分布シフト問題に直面している。
分散シフト問題を解決するために,ポリシ制約オフラインRL法を提案する。
オフラインのRLトレーニングにおいて、学習したポリシーと行動ポリシーの差を所定の閾値内で確実にすることが重要である。
したがって、学習政策は行動政策の質に大きく依存する。
しかし、既存の政策制約手法には問題があり、データセットに低遅延遷移が多数含まれている場合、学習は準最適基準ポリシーに含められ、学習速度が遅くなり、サンプル効率が低下し、性能が低下する。
本稿では,データセットのすべての遷移を利用するポリシ制約オフラインRLにおけるサンプリング手法の改善について述べる。
試料効率と最終性能を改善するため, 単純だが効率的な試料フィルタリング法を提案する。
まず,データセット中のエピソードの平均報酬と平均割引報酬によって遷移のスコアを評価し,高いスコアの遷移サンプルを抽出する。
次に、高スコア遷移サンプルを使用してオフラインRLアルゴリズムをトレーニングする。
提案手法を一連のオフラインRLアルゴリズムとベンチマークタスクで検証する。
実験の結果,提案手法はベースラインよりも優れていた。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。