論文の概要: Enforcing KL Regularization in General Tsallis Entropy Reinforcement
Learning via Advantage Learning
- arxiv url: http://arxiv.org/abs/2205.07885v1
- Date: Mon, 16 May 2022 04:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 02:09:31.115670
- Title: Enforcing KL Regularization in General Tsallis Entropy Reinforcement
Learning via Advantage Learning
- Title(参考訳): 一般化ツァリエントロピー強化学習におけるアドバンテージ学習によるKL正規化の促進
- Authors: Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara
- Abstract要約: 非シャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により近似誤差とその後の性能低下に悩まされる。
我々は,最大ツァリスエントロピー (MTE) における暗黙のクルバック・リブラー (KL) 正則化を強制することによって,それらの誤差・ロバスト性を強化することを提案する。
提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 15.265128234403473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maximum Tsallis entropy (MTE) framework in reinforcement learning has gained
popularity recently by virtue of its flexible modeling choices including the
widely used Shannon entropy and sparse entropy. However, non-Shannon entropies
suffer from approximation error and subsequent underperformance either due to
its sensitivity or the lack of closed-form policy expression. To improve the
tradeoff between flexibility and empirical performance, we propose to
strengthen their error-robustness by enforcing implicit Kullback-Leibler (KL)
regularization in MTE motivated by Munchausen DQN (MDQN). We do so by drawing
connection between MDQN and advantage learning, by which MDQN is shown to fail
on generalizing to the MTE framework. The proposed method Tsallis Advantage
Learning (TAL) is verified on extensive experiments to not only significantly
improve upon Tsallis-DQN for various non-closed-form Tsallis entropies, but
also exhibits comparable performance to state-of-the-art maximum Shannon
entropy algorithms.
- Abstract(参考訳): 強化学習における最大ツァリスエントロピー(MTE)フレームワークは、広く使われているシャノンエントロピーやスパースエントロピーなどのフレキシブルなモデリング選択によって近年人気を集めている。
しかし、ノンシャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により、近似誤差とその後のアンダーパフォーマンスに悩まされる。
そこで本稿では,Munchausen DQN(MDQN)をモチーフとしたMTEにおいて,KL(Kulback-Leibler)正則化を暗黙的に実施することで,柔軟性と経験的性能のトレードオフを改善することを提案する。
我々はMDQNとアドバンテージラーニングの接続を図り、MDQNはMTEフレームワークへの一般化に失敗することを示した。
提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーアルゴリズムに匹敵する性能を示す。
関連論文リスト
- Tsallis Entropy Regularization for Linearly Solvable MDP and Linear
Quadratic Regulator [1.4548651568912525]
本稿では, Tsallis entropy を用いて線形可解 MDP と線形二次レギュレータの正則化を行う。
これらの問題の解法を導出し、得られた制御則の探索とスパーシリティのバランスをとる上での有用性を実証する。
論文 参考訳(メタデータ) (2024-03-04T07:53:15Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Improving the Robustness of Neural Multiplication Units with Reversible
Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。
特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文 参考訳(メタデータ) (2022-11-10T14:56:37Z) - $q$-Munchausen Reinforcement Learning [15.265128234403473]
Munchausen Reinforcement Learning (M-RL) は暗黙的なKulback-Leibler (KL) 正規化を特徴としている。
従来の対数とTsallisエントロピーの非対数(一般化)性とのミスマッチが原因であることを示す。
我々は$q$-logarithm/exponential関数の助けを借りてM-RLのミスマッチを修正することを提案する。
論文 参考訳(メタデータ) (2022-05-16T06:26:10Z) - Learning High-Dimensional McKean-Vlasov Forward-Backward Stochastic
Differential Equations with General Distribution Dependence [6.253771639590562]
本稿では,MV-FBSDEを平均場相互作用の一般形式で計算するための新しいディープラーニング手法を提案する。
我々は、高次元MV-FBSDEを解くために、ディープニューラルネットワークを用いて標準BSDEと近似係数関数を解く。
論文 参考訳(メタデータ) (2022-04-25T18:59:33Z) - Log-based Sparse Nonnegative Matrix Factorization for Data
Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。
そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。
提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文 参考訳(メタデータ) (2022-04-22T11:38:10Z) - Learning generative models for valid knockoffs using novel
multivariate-rank based statistics [12.528602250193206]
ランクエネルギー (RE) は、Monge's Optimal Transport (OT) 問題における最適写像を特徴付ける理論的結果を用いて導出される。
我々は、ソフトランクエネルギー(sRE)と呼ばれるREの変種と、ソフトランク最大平均誤差(sRMMD)と呼ばれるカーネル変種を提案する。
次に、sRMMDを用いて深いノックオフを生成し、有効なノックオフを生成するための新規かつ効果的な方法であることを示す。
論文 参考訳(メタデータ) (2021-10-29T18:51:19Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。