論文の概要: Balancing policy constraint and ensemble size in uncertainty-based
offline reinforcement learning
- arxiv url: http://arxiv.org/abs/2303.14716v1
- Date: Sun, 26 Mar 2023 13:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:02:03.006467
- Title: Balancing policy constraint and ensemble size in uncertainty-based
offline reinforcement learning
- Title(参考訳): 不確実性に基づくオフライン強化学習におけるバランスポリシ制約とアンサンブルサイズ
- Authors: Alex Beeson and Giovanni Montana
- Abstract要約: 不確実性を規制するメカニズムとして,政策制約の役割について検討する。
行動クローンをポリシー更新に組み込むことで、より小さなアンサンブルサイズで十分な罰則を実現できることを示す。
このような手法がオンラインの微調整を安定させ、厳格な性能低下を回避しつつ、継続的な政策改善を可能にしていることを示す。
- 参考スコア(独自算出の注目度): 7.462336024223669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning agents seek optimal policies from fixed data
sets. With environmental interaction prohibited, agents face significant
challenges in preventing errors in value estimates from compounding and
subsequently causing the learning process to collapse. Uncertainty estimation
using ensembles compensates for this by penalising high-variance value
estimates, allowing agents to learn robust policies based on data-driven
actions. However, the requirement for large ensembles to facilitate sufficient
penalisation results in significant computational overhead. In this work, we
examine the role of policy constraints as a mechanism for regulating
uncertainty, and the corresponding balance between level of constraint and
ensemble size. By incorporating behavioural cloning into policy updates, we
show empirically that sufficient penalisation can be achieved with a much
smaller ensemble size, substantially reducing computational demand while
retaining state-of-the-art performance on benchmarking tasks. Furthermore, we
show how such an approach can facilitate stable online fine tuning, allowing
for continued policy improvement while avoiding severe performance drops.
- Abstract(参考訳): オフライン強化学習エージェントは、固定データセットから最適なポリシーを求める。
環境相互作用が禁止されているため、エージェントは価値見積の誤りを複雑化から防ぎ、学習過程を崩壊させるという重大な課題に直面した。
アンサンブルを用いた不確実性推定は、高分散値推定を解析することにより、データ駆動アクションに基づいて堅牢なポリシーを学ぶことができる。
しかし、十分なペナルティ化を容易にするための大規模なアンサンブルの必要性は、かなりの計算オーバーヘッドをもたらす。
本研究では,不確実性を規制するメカニズムとしての政策制約の役割と,制約レベルとアンサンブルサイズの間のバランスについて検討する。
ポリシー更新に行動クローンを組み込むことにより,ベンチマークタスクにおける最先端性能を維持しつつ,計算要求を大幅に低減し,はるかに小さなアンサンブルサイズで十分なペナル化が達成できることを実証的に示す。
さらに、このような手法がオンラインの微調整を安定させ、厳格な性能低下を回避しつつ、継続的な政策改善を可能にする方法を示す。
関連論文リスト
- Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。