Fugu-MT 論文翻訳(概要): Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning

論文の概要: Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.18684v1
Date: Thu, 30 Nov 2023 16:31:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 15:44:02.537052
Title: Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning
Title（参考訳）: オフポリシー深層強化学習によるコストと制約の取り扱い
Authors: Jared Markowitz, Jesse Silverberg, Gary Collins
Abstract要約: 政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
参考スコア（独自算出の注目度）: 2.793095554369282
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: By reusing data throughout training, off-policy deep reinforcement learning algorithms offer improved sample efficiency relative to on-policy approaches. For continuous action spaces, the most popular methods for off-policy learning include policy improvement steps where a learned state-action ($Q$) value function is maximized over selected batches of data. These updates are often paired with regularization to combat associated overestimation of $Q$ values. With an eye toward safety, we revisit this strategy in environments with "mixed-sign" reward functions; that is, with reward functions that include independent positive (incentive) and negative (cost) terms. This setting is common in real-world applications, and may be addressed with or without constraints on the cost terms. We find the combination of function approximation and a term that maximizes $Q$ in the policy update to be problematic in such environments, because systematic errors in value estimation impact the contributions from the competing terms asymmetrically. This results in overemphasis of either incentives or costs and may severely limit learning. We explore two remedies to this issue. First, consistent with prior work, we find that periodic resetting of $Q$ and policy networks can be used to reduce value estimation error and improve learning in this setting. Second, we formulate novel off-policy actor-critic methods for both unconstrained and constrained learning that do not explicitly maximize $Q$ in the policy update. We find that this second approach, when applied to continuous action spaces with mixed-sign rewards, consistently and significantly outperforms state-of-the-art methods augmented by resetting. We further find that our approach produces agents that are both competitive with popular methods overall and more reliably competent on frequently-studied control problems that do not have mixed-sign rewards.
Abstract（参考訳）: トレーニングを通してデータを再利用することで、オフポリシーのディープ強化学習アルゴリズムは、オンポリシーアプローチと比較してサンプル効率が向上する。継続的アクション空間において、オフポリシー学習の最も一般的な方法は、学習された状態アクション(q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。これらの更新は、しばしば$q$の過大評価と戦うために正規化と組み合わせられる。安全に目を向けて、我々は「混合サイン」報酬関数、すなわち、独立性(インセンティブ)と負性(コスト)の用語を含む報酬関数を持つ環境において、この戦略を再考する。この設定は現実世界のアプリケーションでは一般的であり、コストの条件に制約を課すことなく対処することができる。関数近似とポリシー更新で$Q$を最大化できる用語の組み合わせが,このような環境で問題となるのは,値推定の体系的誤りが競合する用語からの寄与に非対称に影響を及ぼすためである。その結果、インセンティブとコストのいずれも過度に強調され、学習を厳しく制限する可能性がある。この問題に対する2つの対策を探る。まず、事前の作業と一致して、$Q$とポリシーネットワークの定期的なリセットが、価値推定誤差の低減と、この設定での学習の改善に有効であることがわかった。第2に、ポリシー更新において明示的にq$を最大化しない制約付き学習と制約付き学習の両方に対して、新たなオフ・ポリティカル・アクタ-批判手法を定式化する。この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットにより拡張された最先端の手法よりも一貫して、著しく優れる。さらに,提案手法は,一般的な手法と競合し,混合符号の報酬を持たない頻繁な制御問題に対して,より確実に能力を持つエージェントを生成できることを見いだした。

関連論文リスト

$TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning [7.97295726921338]
Temporal-Agent Reward Redistribution $TAR2$は、スパースグローバルな報酬をエージェント固有のタイムステップ固有のコンポーネントに分解する新しいアプローチである。我々は、$TAR2$が潜在的な報酬形成と整合し、元の環境と同じ最適なポリシーを保っていることを示す。
論文参考訳（メタデータ） (2025-02-07T12:07:57Z)
Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文参考訳（メタデータ） (2024-11-05T13:55:52Z)
$Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文参考訳（メタデータ） (2024-05-16T12:04:55Z)
Off-Policy Primal-Dual Safe Reinforcement Learning [16.918188277722503]
本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。本稿では,予測の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
論文参考訳（メタデータ） (2024-01-26T10:33:38Z)
Bayesian Inverse Transition Learning for Offline Settings [30.10905852013852]
強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に用いられる。我々は、遷移力学の後方分布を確実に学習するために、デシダラタを捕捉する新しい制約ベースのアプローチを提案する。その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。
論文参考訳（メタデータ） (2023-08-09T17:08:29Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文参考訳（メタデータ） (2020-10-27T13:40:06Z)
Average Reward Adjusted Discounted Reinforcement Learning: Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文参考訳（メタデータ） (2020-04-02T08:05:18Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。