論文の概要: Choquet regularization for reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.08497v1
- Date: Wed, 17 Aug 2022 19:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:23:34.906528
- Title: Choquet regularization for reinforcement learning
- Title(参考訳): 強化学習のためのコケ規則化
- Authors: Xia Han, Ruodu Wang, Xun Yu Zhou
- Abstract要約: 強化学習のための探索レベルを計測・管理するためのチェケットレギュレータを提案する。
ハミルトン-ヤコビ-ベルマン方程式を導出し、線形四元数 (LQ) の場合を明確に解く。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose \emph{Choquet regularizers} to measure and manage the level of
exploration for reinforcement learning (RL), and reformulate the
continuous-time entropy-regularized RL problem of Wang et al. (2020, JMLR,
21(198)) in which we replace the differential entropy used for regularization
with a Choquet regularizer. We derive the Hamilton--Jacobi--Bellman equation of
the problem, and solve it explicitly in the linear--quadratic (LQ) case via
maximizing statically a mean--variance constrained Choquet regularizer. Under
the LQ setting, we derive explicit optimal distributions for several specific
Choquet regularizers, and conversely identify the Choquet regularizers that
generate a number of broadly used exploratory samplers such as
$\epsilon$-greedy, exponential, uniform and Gaussian.
- Abstract(参考訳): 本稿では,強化学習(rl)の探索レベルを測定し管理し,wang et al. (2020, jmlr, 21(198)) の連続時間エントロピー正規化rl問題(英語版)を正則化に使用する微分エントロピーを正則化器で置き換える手法を提案する。
この問題のハミルトン-ヤコビ-ベルマン方程式を導出し、平均分散制約チョーケ正規化器を静的に最大化することにより、線形四分法(LQ)の場合を明示的に解いた。
lq の設定の下では、いくつかの特定のコケ正規化子に対する明示的な最適分布を導出し、逆に$\epsilon$-greedy, exponential, uniform, gaussian のような広く使われる探索的サンプルを生成するコケ正規化子を同定する。
関連論文リスト
- Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。
オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文 参考訳(メタデータ) (2022-10-20T14:49:39Z) - Provably tuning the ElasticNet across instances [53.0518090093538]
我々は、複数の問題インスタンスにまたがるリッジ回帰、LASSO、ElasticNetの正規化パラメータをチューニングする問題を考察する。
我々の結果は、この重要な問題に対する学習理論による最初の一般的な保証である。
論文 参考訳(メタデータ) (2022-07-20T21:22:40Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - A Variational Inference Approach to Inverse Problems with Gamma
Hyperpriors [60.489902135153415]
本稿では,ガンマハイパープライヤを用いた階層的逆問題に対する変分反復交替方式を提案する。
提案した変分推論手法は正確な再構成を行い、意味のある不確実な定量化を提供し、実装が容易である。
論文 参考訳(メタデータ) (2021-11-26T06:33:29Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - The Benefits of Implicit Regularization from SGD in Least Squares
Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。
我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文 参考訳(メタデータ) (2021-08-10T09:56:47Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-09T15:17:52Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。