Fugu-MT 論文翻訳(概要): Enforcing KL Regularization in General Tsallis Entropy Reinforcement Learning via Advantage Learning

論文の概要: Enforcing KL Regularization in General Tsallis Entropy Reinforcement Learning via Advantage Learning

arxiv url: http://arxiv.org/abs/2205.07885v1
Date: Mon, 16 May 2022 04:47:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-19 02:09:31.115670
Title: Enforcing KL Regularization in General Tsallis Entropy Reinforcement Learning via Advantage Learning
Title（参考訳）: 一般化ツァリエントロピー強化学習におけるアドバンテージ学習によるKL正規化の促進
Authors: Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara
Abstract要約: 非シャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により近似誤差とその後の性能低下に悩まされる。我々は,最大ツァリスエントロピー (MTE) における暗黙のクルバック・リブラー (KL) 正則化を強制することによって,それらの誤差・ロバスト性を強化することを提案する。提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーに匹敵する性能を示す。
参考スコア（独自算出の注目度）: 15.265128234403473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Maximum Tsallis entropy (MTE) framework in reinforcement learning has gained popularity recently by virtue of its flexible modeling choices including the widely used Shannon entropy and sparse entropy. However, non-Shannon entropies suffer from approximation error and subsequent underperformance either due to its sensitivity or the lack of closed-form policy expression. To improve the tradeoff between flexibility and empirical performance, we propose to strengthen their error-robustness by enforcing implicit Kullback-Leibler (KL) regularization in MTE motivated by Munchausen DQN (MDQN). We do so by drawing connection between MDQN and advantage learning, by which MDQN is shown to fail on generalizing to the MTE framework. The proposed method Tsallis Advantage Learning (TAL) is verified on extensive experiments to not only significantly improve upon Tsallis-DQN for various non-closed-form Tsallis entropies, but also exhibits comparable performance to state-of-the-art maximum Shannon entropy algorithms.
Abstract（参考訳）: 強化学習における最大ツァリスエントロピー(MTE)フレームワークは、広く使われているシャノンエントロピーやスパースエントロピーなどのフレキシブルなモデリング選択によって近年人気を集めている。しかし、ノンシャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により、近似誤差とその後のアンダーパフォーマンスに悩まされる。そこで本稿では,Munchausen DQN(MDQN)をモチーフとしたMTEにおいて,KL(Kulback-Leibler)正則化を暗黙的に実施することで,柔軟性と経験的性能のトレードオフを改善することを提案する。我々はMDQNとアドバンテージラーニングの接続を図り、MDQNはMTEフレームワークへの一般化に失敗することを示した。提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーアルゴリズムに匹敵する性能を示す。

関連論文リスト

Relaxing the Markov Requirements on Reinforcement Learning Under Weak Relative Ignorability [0.0]
我々は「相対的不確実性」の概念を導入し、適応強化学習のための新しい収束定理を確立する。この理論的結果は、従来の$Q$-ラーニングの過程におけるマルコフの仮定を緩和し、最適性を確立するためにロビンズ・モンロ近似定理の一般化形式を展開させる。
論文参考訳（メタデータ） (2025-04-10T13:15:52Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文参考訳（メタデータ） (2025-02-15T12:28:51Z)
PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。 PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-24T07:57:21Z)
SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文参考訳（メタデータ） (2024-08-15T17:50:07Z)
Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy [8.924830900790713]
本稿では,Tsallisエントロピー正規化の下で,Q-ラーニング(Q-ラーニングの連続的対応)を特徴とするジャンプ拡散モデルの連続時間強化学習について検討する。最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。
論文参考訳（メタデータ） (2024-07-04T12:26:31Z)
Tsallis Entropy Regularization for Linearly Solvable MDP and Linear Quadratic Regulator [1.4548651568912525]
本稿では, Tsallis entropy を用いて線形可解 MDP と線形二次レギュレータの正則化を行う。これらの問題の解法を導出し、得られた制御則の探索とスパーシリティのバランスをとる上での有用性を実証する。
論文参考訳（メタデータ） (2024-03-04T07:53:15Z)
Achieving Constraints in Neural Networks: A Stochastic Augmented Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文参考訳（メタデータ） (2023-10-25T13:55:35Z)
Regularizing with Pseudo-Negatives for Continual Self-Supervised Learning [62.40718385934608]
効果的な継続型自己教師型学習(CSSL)のためのPNR(Pseudo-Negative Regularization)フレームワークを提案する。我々のPNRは,新たに学習した表現が過去の学習と矛盾しないように,モデルに基づく拡張によって得られた擬陰性情報を活用する。
論文参考訳（メタデータ） (2023-06-08T10:59:35Z)
Improving the Robustness of Neural Multiplication Units with Reversible Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文参考訳（メタデータ） (2022-11-10T14:56:37Z)
$q$-Munchausen Reinforcement Learning [15.265128234403473]
Munchausen Reinforcement Learning (M-RL) は暗黙的なKulback-Leibler (KL) 正規化を特徴としている。従来の対数とTsallisエントロピーの非対数(一般化)性とのミスマッチが原因であることを示す。我々は$q$-logarithm/exponential関数の助けを借りてM-RLのミスマッチを修正することを提案する。
論文参考訳（メタデータ） (2022-05-16T06:26:10Z)
Learning High-Dimensional McKean-Vlasov Forward-Backward Stochastic Differential Equations with General Distribution Dependence [6.253771639590562]
本稿では,MV-FBSDEを平均場相互作用の一般形式で計算するための新しいディープラーニング手法を提案する。我々は、高次元MV-FBSDEを解くために、ディープニューラルネットワークを用いて標準BSDEと近似係数関数を解く。
論文参考訳（メタデータ） (2022-04-25T18:59:33Z)
Log-based Sparse Nonnegative Matrix Factorization for Data Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文参考訳（メタデータ） (2022-04-22T11:38:10Z)
Tight Mutual Information Estimation With Contrastive Fenchel-Legendre Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。 FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文参考訳（メタデータ） (2021-07-02T15:20:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。