論文の概要: $q$-Munchausen Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.07467v1
- Date: Mon, 16 May 2022 06:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 23:23:17.980975
- Title: $q$-Munchausen Reinforcement Learning
- Title(参考訳): $q$-Munchausen強化学習
- Authors: Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara
- Abstract要約: Munchausen Reinforcement Learning (M-RL) は暗黙的なKulback-Leibler (KL) 正規化を特徴としている。
従来の対数とTsallisエントロピーの非対数(一般化)性とのミスマッチが原因であることを示す。
我々は$q$-logarithm/exponential関数の助けを借りてM-RLのミスマッチを修正することを提案する。
- 参考スコア(独自算出の注目度): 15.265128234403473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently successful Munchausen Reinforcement Learning (M-RL) features
implicit Kullback-Leibler (KL) regularization by augmenting the reward function
with logarithm of the current stochastic policy. Though significant improvement
has been shown with the Boltzmann softmax policy, when the Tsallis sparsemax
policy is considered, the augmentation leads to a flat learning curve for
almost every problem considered. We show that it is due to the mismatch between
the conventional logarithm and the non-logarithmic (generalized) nature of
Tsallis entropy. Drawing inspiration from the Tsallis statistics literature, we
propose to correct the mismatch of M-RL with the help of
$q$-logarithm/exponential functions. The proposed formulation leads to implicit
Tsallis KL regularization under the maximum Tsallis entropy framework. We show
such formulation of M-RL again achieves superior performance on benchmark
problems and sheds light on more general M-RL with various entropic indices
$q$.
- Abstract(参考訳): 最近成功したMunchausen Reinforcement Learning (M-RL)は、現在の確率ポリシーの対数で報酬関数を増強することにより、暗黙のKL正規化を特徴としている。
ボルツマン・ソフトマックス・ポリシーでは大きな改善が見られたが、ツァリス・スパースマックス・ポリシーが検討されると、拡張はほぼすべての問題に対して平坦な学習曲線をもたらす。
従来の対数と tsallis エントロピーの非対数的(一般化された)性質の不一致によるものである。
そこで,tsallis統計文献から着想を得て,$q$-logarithm/exponential関数を用いてm-rlのミスマッチを補正する手法を提案する。
提案する定式化は最大tsallisエントロピー枠組みの下で暗黙のtsallis kl正規化をもたらす。
このようなM-RLの定式化は、ベンチマーク問題において再び優れた性能を達成し、様々なエントロピー指標を持つより一般的なM-RLに光を当てる。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Demonstration-Regularized RL [39.96273388393764]
専門的な実証から,次数$widetildeO(mathrmPoly(S,A,H)/(varepsilon2 NmathrmE)$および$widetildeO(mathrmPoly(d,H)/(varepsilon2 NmathrmE)$の線形マルコフ決定過程における最適ポリシを同定した。
実演規則化手法が人間のフィードバックからの強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-26T10:54:47Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Enforcing KL Regularization in General Tsallis Entropy Reinforcement
Learning via Advantage Learning [15.265128234403473]
非シャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により近似誤差とその後の性能低下に悩まされる。
我々は,最大ツァリスエントロピー (MTE) における暗黙のクルバック・リブラー (KL) 正則化を強制することによって,それらの誤差・ロバスト性を強化することを提案する。
提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-05-16T04:47:50Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Regret Bounds for Discounted MDPs [26.37242007290973]
従来の知恵は、学習者が受ける平均報酬と最大長期報酬との差を最大化することである。
我々は$gamma$-regretと呼ばれる一連の測度を提案し、これは有限時間最適性をよりよく捉えると信じている。
論文 参考訳(メタデータ) (2020-02-12T18:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。