論文の概要: The Unintended Consequences of Discount Regularization: Improving
Regularization in Certainty Equivalence Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.11208v1
- Date: Tue, 20 Jun 2023 00:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:00:33.829790
- Title: The Unintended Consequences of Discount Regularization: Improving
Regularization in Certainty Equivalence Reinforcement Learning
- Title(参考訳): 分数正規化の意図しない結果:不確実性等価強化学習における正規化の改善
- Authors: Sarah Rathnam, Sonali Parbhoo, Weiwei Pan, Susan A. Murphy, Finale
Doshi-Velez
- Abstract要約: 遅延効果の非強調や無視による正規化関数の割引が一般的である。
低い割引率のプランニングが,事前のプランニングに最適であることを示す。
我々の同値定理は、グローバルではなく個々の状態-作用対に対して局所的に正規化パラメータを設定するための明示的な公式につながる。
- 参考スコア(独自算出の注目度): 27.760555309554686
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Discount regularization, using a shorter planning horizon when calculating
the optimal policy, is a popular choice to restrict planning to a less complex
set of policies when estimating an MDP from sparse or noisy data (Jiang et al.,
2015). It is commonly understood that discount regularization functions by
de-emphasizing or ignoring delayed effects. In this paper, we reveal an
alternate view of discount regularization that exposes unintended consequences.
We demonstrate that planning under a lower discount factor produces an
identical optimal policy to planning using any prior on the transition matrix
that has the same distribution for all states and actions. In fact, it
functions like a prior with stronger regularization on state-action pairs with
more transition data. This leads to poor performance when the transition matrix
is estimated from data sets with uneven amounts of data across state-action
pairs. Our equivalence theorem leads to an explicit formula to set
regularization parameters locally for individual state-action pairs rather than
globally. We demonstrate the failures of discount regularization and how we
remedy them using our state-action-specific method across simple empirical
examples as well as a medical cancer simulator.
- Abstract(参考訳): 最適政策を計算する際に、より短い計画的地平線を用いるディスカウント正規化(Discount regularization)は、スパースやノイズの多いデータからMDPを推定する際に、計画がより複雑な政策に制限されることが一般的である(Jiang et al., 2015)。
遅延効果の強調や無視によるディスカウント正規化関数が一般的である。
本稿では,意図しない結果を示すディスカウント正規化の代替的視点を明らかにする。
本研究は,全ての状態と行動に同じ分布を持つ遷移行列に先行して計画する上で,低い割引係数下での計画が最適であることを示す。
実際、より遷移データを持つ状態-作用対のより強い正則化を持つ前者のように機能する。
これにより、状態-作用ペア間で不均一な量のデータセットから遷移行列が推定されると、パフォーマンスが低下する。
我々の同値定理は、グローバルではなく個々の状態-作用対に対して局所的に正規化パラメータを設定する明示的な公式をもたらす。
本研究は, 医療用癌シミュレータと同様に, 簡易な実験例にまたがって, ディスカウント正則化の失敗と, 状態対応法による治療方法を示す。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Planning in Observable POMDPs in Quasipolynomial Time [21.03037504572896]
我々は観測可能なPOMDPの計画のための準ポリノミカル時間アルゴリズムを開発した。
我々は、状態上のよく分断された分布が観察上のよく分断された分布をもたらすと仮定する。
観測可能なPOMDPの指数時間仮説の下での計画に適合する硬さを実証する。
論文 参考訳(メタデータ) (2022-01-12T23:16:37Z) - Efficient Belief Space Planning in High-Dimensional State Spaces using
PIVOT: Predictive Incremental Variable Ordering Tactic [11.878820609988693]
我々は,不確実性の下でのオンライン意思決定の問題点を考察し,信頼空間における計画として定式化する。
このアプローチを PIVOT: Predictive Incremental Variable Ordering Tactic と呼ぶ。
この戦術を適用することで、状態推論の効率も向上する。
論文 参考訳(メタデータ) (2021-12-29T07:30:47Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。