論文の概要: Enforcing KL Regularization in General Tsallis Entropy Reinforcement
Learning via Advantage Learning
- arxiv url: http://arxiv.org/abs/2205.07885v1
- Date: Mon, 16 May 2022 04:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 02:09:31.115670
- Title: Enforcing KL Regularization in General Tsallis Entropy Reinforcement
Learning via Advantage Learning
- Title(参考訳): 一般化ツァリエントロピー強化学習におけるアドバンテージ学習によるKL正規化の促進
- Authors: Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara
- Abstract要約: 非シャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により近似誤差とその後の性能低下に悩まされる。
我々は,最大ツァリスエントロピー (MTE) における暗黙のクルバック・リブラー (KL) 正則化を強制することによって,それらの誤差・ロバスト性を強化することを提案する。
提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 15.265128234403473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maximum Tsallis entropy (MTE) framework in reinforcement learning has gained
popularity recently by virtue of its flexible modeling choices including the
widely used Shannon entropy and sparse entropy. However, non-Shannon entropies
suffer from approximation error and subsequent underperformance either due to
its sensitivity or the lack of closed-form policy expression. To improve the
tradeoff between flexibility and empirical performance, we propose to
strengthen their error-robustness by enforcing implicit Kullback-Leibler (KL)
regularization in MTE motivated by Munchausen DQN (MDQN). We do so by drawing
connection between MDQN and advantage learning, by which MDQN is shown to fail
on generalizing to the MTE framework. The proposed method Tsallis Advantage
Learning (TAL) is verified on extensive experiments to not only significantly
improve upon Tsallis-DQN for various non-closed-form Tsallis entropies, but
also exhibits comparable performance to state-of-the-art maximum Shannon
entropy algorithms.
- Abstract(参考訳): 強化学習における最大ツァリスエントロピー(MTE)フレームワークは、広く使われているシャノンエントロピーやスパースエントロピーなどのフレキシブルなモデリング選択によって近年人気を集めている。
しかし、ノンシャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により、近似誤差とその後のアンダーパフォーマンスに悩まされる。
そこで本稿では,Munchausen DQN(MDQN)をモチーフとしたMTEにおいて,KL(Kulback-Leibler)正則化を暗黙的に実施することで,柔軟性と経験的性能のトレードオフを改善することを提案する。
我々はMDQNとアドバンテージラーニングの接続を図り、MDQNはMTEフレームワークへの一般化に失敗することを示した。
提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーアルゴリズムに匹敵する性能を示す。
関連論文リスト
- PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。
最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-07-04T12:26:31Z) - Tsallis Entropy Regularization for Linearly Solvable MDP and Linear
Quadratic Regulator [1.4548651568912525]
本稿では, Tsallis entropy を用いて線形可解 MDP と線形二次レギュレータの正則化を行う。
これらの問題の解法を導出し、得られた制御則の探索とスパーシリティのバランスをとる上での有用性を実証する。
論文 参考訳(メタデータ) (2024-03-04T07:53:15Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Regularizing with Pseudo-Negatives for Continual Self-Supervised Learning [62.40718385934608]
効果的な継続型自己教師型学習(CSSL)のためのPNR(Pseudo-Negative Regularization)フレームワークを提案する。
我々のPNRは,新たに学習した表現が過去の学習と矛盾しないように,モデルに基づく拡張によって得られた擬陰性情報を活用する。
論文 参考訳(メタデータ) (2023-06-08T10:59:35Z) - Improving the Robustness of Neural Multiplication Units with Reversible
Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。
特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文 参考訳(メタデータ) (2022-11-10T14:56:37Z) - $q$-Munchausen Reinforcement Learning [15.265128234403473]
Munchausen Reinforcement Learning (M-RL) は暗黙的なKulback-Leibler (KL) 正規化を特徴としている。
従来の対数とTsallisエントロピーの非対数(一般化)性とのミスマッチが原因であることを示す。
我々は$q$-logarithm/exponential関数の助けを借りてM-RLのミスマッチを修正することを提案する。
論文 参考訳(メタデータ) (2022-05-16T06:26:10Z) - Learning High-Dimensional McKean-Vlasov Forward-Backward Stochastic
Differential Equations with General Distribution Dependence [6.253771639590562]
本稿では,MV-FBSDEを平均場相互作用の一般形式で計算するための新しいディープラーニング手法を提案する。
我々は、高次元MV-FBSDEを解くために、ディープニューラルネットワークを用いて標準BSDEと近似係数関数を解く。
論文 参考訳(メタデータ) (2022-04-25T18:59:33Z) - Log-based Sparse Nonnegative Matrix Factorization for Data
Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。
そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。
提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文 参考訳(メタデータ) (2022-04-22T11:38:10Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。