Fugu-MT 論文翻訳(概要): Choquet regularization for reinforcement learning

論文の概要: Choquet regularization for reinforcement learning

arxiv url: http://arxiv.org/abs/2208.08497v1
Date: Wed, 17 Aug 2022 19:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-19 13:23:34.906528
Title: Choquet regularization for reinforcement learning
Title（参考訳）: 強化学習のためのコケ規則化
Authors: Xia Han, Ruodu Wang, Xun Yu Zhou
Abstract要約: 強化学習のための探索レベルを計測・管理するためのチェケットレギュレータを提案する。ハミルトン-ヤコビ-ベルマン方程式を導出し、線形四元数 (LQ) の場合を明確に解く。
参考スコア（独自算出の注目度）: 1.2031796234206138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose \emph{Choquet regularizers} to measure and manage the level of exploration for reinforcement learning (RL), and reformulate the continuous-time entropy-regularized RL problem of Wang et al. (2020, JMLR, 21(198)) in which we replace the differential entropy used for regularization with a Choquet regularizer. We derive the Hamilton--Jacobi--Bellman equation of the problem, and solve it explicitly in the linear--quadratic (LQ) case via maximizing statically a mean--variance constrained Choquet regularizer. Under the LQ setting, we derive explicit optimal distributions for several specific Choquet regularizers, and conversely identify the Choquet regularizers that generate a number of broadly used exploratory samplers such as $\epsilon$-greedy, exponential, uniform and Gaussian.
Abstract（参考訳）: 本稿では,強化学習(rl)の探索レベルを測定し管理し,wang et al. (2020, jmlr, 21(198)) の連続時間エントロピー正規化rl問題(英語版)を正則化に使用する微分エントロピーを正則化器で置き換える手法を提案する。この問題のハミルトン-ヤコビ-ベルマン方程式を導出し、平均分散制約チョーケ正規化器を静的に最大化することにより、線形四分法(LQ)の場合を明示的に解いた。 lq の設定の下では、いくつかの特定のコケ正規化子に対する明示的な最適分布を導出し、逆に$\epsilon$-greedy, exponential, uniform, gaussian のような広く使われる探索的サンプルを生成するコケ正規化子を同定する。

関連論文リスト

Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文参考訳（メタデータ） (2025-02-11T11:11:05Z)
Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文参考訳（メタデータ） (2024-07-04T12:26:31Z)
Dynamic selection of p-norm in linear adaptive filtering via online kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文参考訳（メタデータ） (2022-10-20T14:49:39Z)
Provably tuning the ElasticNet across instances [53.0518090093538]
我々は、複数の問題インスタンスにまたがるリッジ回帰、LASSO、ElasticNetの正規化パラメータをチューニングする問題を考察する。我々の結果は、この重要な問題に対する学習理論による最初の一般的な保証である。
論文参考訳（メタデータ） (2022-07-20T21:22:40Z)
Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-24T16:33:54Z)
A Variational Inference Approach to Inverse Problems with Gamma Hyperpriors [60.489902135153415]
本稿では,ガンマハイパープライヤを用いた階層的逆問題に対する変分反復交替方式を提案する。提案した変分推論手法は正確な再構成を行い、意味のある不確実な定量化を提供し、実装が容易である。
論文参考訳（メタデータ） (2021-11-26T06:33:29Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文参考訳（メタデータ） (2021-09-24T07:48:34Z)
The Benefits of Implicit Regularization from SGD in Least Squares Problems [116.85246178212616]
勾配降下(SGD)はアルゴリズム正則化効果が強い。我々は、(正規化されていない)平均SGDで得られる暗黙の正則化とリッジ回帰の明示的な正則化の比較を行う。
論文参考訳（メタデータ） (2021-08-10T09:56:47Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-09T15:17:52Z)
Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文参考訳（メタデータ） (2020-03-31T10:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。