論文の概要: Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.02545v1
- Date: Wed, 3 Apr 2024 08:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:10:13.043871
- Title: Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのグリッドマッピング擬似制約
- Authors: Yi Shen, Hanyan Huang, Shan Xie,
- Abstract要約: GPC(Grid-Mapping Pseudo-Count Method)と呼ばれる,連続ドメインのための新しいカウントベース手法を提案する。
GPCは他のアルゴリズムに比べて性能が良く、計算コストも低い。
- 参考スコア(独自算出の注目度): 1.7886826917274343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning learns from a static dataset without interacting with the environment, which ensures security and thus owns a good prospect of application. However, directly applying naive reinforcement learning methods usually fails in an offline environment due to function approximation errors caused by out-of-distribution(OOD) actions. To solve this problem, existing algorithms mainly penalize the Q-value of OOD actions, the quality of whose constraints also matter. Imprecise constraints may lead to suboptimal solutions, while precise constraints require significant computational costs. In this paper, we propose a novel count-based method for continuous domains, called Grid-Mapping Pseudo-Count method(GPC), to penalize the Q-value appropriately and reduce the computational cost. The proposed method maps the state and action space to discrete space and constrains their Q-values through the pseudo-count. It is theoretically proved that only a few conditions are needed to obtain accurate uncertainty constraints in the proposed method. Moreover, we develop a Grid-Mapping Pseudo-Count Soft Actor-Critic(GPC-SAC) algorithm using GPC under the Soft Actor-Critic(SAC) framework to demonstrate the effectiveness of GPC. The experimental results on D4RL benchmark datasets show that GPC-SAC has better performance and less computational cost compared to other algorithms.
- Abstract(参考訳): オフライン強化学習は、環境と対話することなく、静的データセットから学習する。
しかし、直感的な強化学習手法は、通常、オフ・オブ・ディストリビューション(OOD)アクションによる関数近似誤差によってオフライン環境で失敗する。
この問題を解決するために、既存のアルゴリズムは、OODアクションのQ-値(制約の質も重要である)を主にペナルティ化する。
不正確な制約は最適以下の解をもたらすが、厳密な制約は計算コストがかなり必要である。
本稿では,GPC法(Grid-Mapping Pseudo-Count method)と呼ばれる連続領域のカウントベース手法を提案する。
提案手法は,状態空間と行動空間を離散空間にマッピングし,擬似数を用いてQ値の制約を行う。
提案手法では, 正確な不確実性制約を得るためには, 少数の条件しか必要とされないことが理論的に証明されている。
さらに,GPCをソフト・アクター・クリティカル(SAC)フレームワークとして用いたグリッド・マッピング・擬似ソフト・アクター・クリティカル(GPC-SAC)アルゴリズムを開発し,GPCの有効性を実証した。
D4RLベンチマークデータセットの実験結果は、GPC-SACは他のアルゴリズムと比較して性能が良く、計算コストも低いことを示している。
関連論文リスト
- A Penalty-Based Guardrail Algorithm for Non-Decreasing Optimization with Inequality Constraints [1.5498250598583487]
伝統的な数学的プログラミングの解法は制約付き最小化問題を解くのに長い計算時間を必要とする。
ペナルティに基づくガードレールアルゴリズム(PGA)を提案する。
論文 参考訳(メタデータ) (2024-05-03T10:37:34Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement
Learning with Provable Convergence [8.191815417711194]
Deep Actorriticアルゴリズムは、ActorriticとDeep Neural Network(DNN)を組み合わせる
本稿では,一般対話のための単一ループアクタ・クライブアルゴリズムを提案する。
SL-Criticアルゴリズムは、優れた学習近似と優れた性能に収束することを示す。
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Conservative Distributional Reinforcement Learning with Safety
Constraints [22.49025480735792]
安全探索は、期待される長期コストが制約されるマルコフ決定問題とみなすことができる。
従来の非政治アルゴリズムは、制約付き最適化問題をラグランジアン緩和手法を導入して、対応する制約なしの双対問題に変換する。
本稿では,ポストリオ政策最適化による保守的分布最大化という,非政治的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-18T19:45:43Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Managing caching strategies for stream reasoning with reinforcement
learning [18.998260813058305]
ストリーム推論は、継続的なデータ変更よりも効率的な意思決定を可能にする。
我々は、衝突駆動制約学習(CDCL)を用いてレガシーソリューションを効率的に更新する新しいアプローチを提案する。
特に,強化学習の適用性について検討し,学習制約の有用性を継続的に評価する。
論文 参考訳(メタデータ) (2020-08-07T15:01:41Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。