論文の概要: Vanishing L2 regularization for the softmax Multi Armed Bandit
- arxiv url: http://arxiv.org/abs/2605.03752v1
- Date: Tue, 05 May 2026 13:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.953403
- Title: Vanishing L2 regularization for the softmax Multi Armed Bandit
- Title(参考訳): ソフトマックスマルチアームバンドのVanishing L2正規化
- Authors: Stefana-Lucia Anita, Gabriel Turinici,
- Abstract要約: Multi Armed Bandit (MAB)アルゴリズムは強化学習の基盤となっている。
ここでは、平均報酬から二次項を減算するL2正規化ソフトマックスポリシー勾配を考える。
ここでは、理論的収束結果を証明し、この状態が標準ベンチマークでL2正規化を数値的に有利にしていることを実証的に確認する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi Armed Bandit (MAB) algorithms are a cornerstone of reinforcement learning and have been studied both theoretically and numerically. One of the most commonly used implementation uses a softmax mapping to prescribe the optimal policy and served as the foundation for downstream algorithms, including REINFORCE. Distinct from vanilla approaches, we consider here the L2 regularized softmax policy gradient where a quadratic term is subtracted from the mean reward. Previous studies exploiting convexity failed to identify a suitable theoretical framework to analyze its convergence when the regularization parameter vanishes. We prove here theoretical convergence results and confirm empirically that this regime makes the L2 regularization numerically advantageous on standard benchmarks.
- Abstract(参考訳): マルチアームバンド(MAB)アルゴリズムは強化学習の基礎であり、理論的にも数値的にも研究されている。
最も一般的な実装の1つは、最適なポリシーを規定するためにソフトマックスマッピングを使用しており、REINFORCEを含む下流アルゴリズムの基礎として機能している。
バニラアプローチとは対照的に、平均報酬から二次項を減算するL2正規化ソフトマックスポリシー勾配を考える。
凸性を利用する以前の研究は、正規化パラメータが消えるときにその収束を分析するのに適した理論的枠組みを特定できなかった。
ここでは、理論的収束結果を証明し、この状態が標準ベンチマークでL2正規化を数値的に有利にしていることを実証的に確認する。
関連論文リスト
- Automatic Rank Determination for Low-Rank Adaptation via Submodular Function Maximization [56.78271181959529]
SubLoRAは、サブモジュール関数に基づくローランド適応(LoRA)のランク決定方法である。
提案手法は, 理論的基礎, 2次精度, 実用計算効率の両立を図っている。
論文 参考訳(メタデータ) (2025-07-02T15:56:40Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [45.99743804547533]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning [0.0]
逐次的過剰緩和(SOR)Q-ラーニングは、収束をスピードアップする緩和因子を導入し、2つの大きな制限がある。
サンプルベースでモデルなしのダブルSORQ学習アルゴリズムを提案する。
提案アルゴリズムは深部RLを用いて大規模問題に拡張される。
論文 参考訳(メタデータ) (2024-09-10T09:23:03Z) - Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit [0.0]
一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは、強化学習の最もよく使われるフレームワークである。
この研究において、$L2$正規化項が'softmax'パラメトリゼーションと共同で存在する状況に対するそのような手順の収束について検討する。
論文 参考訳(メタデータ) (2024-02-09T13:10:04Z) - Random Matrix Analysis to Balance between Supervised and Unsupervised
Learning under the Low Density Separation Assumption [9.620832983703863]
線形分類モデルであるQLDSを導入し、低密度分離仮定を2次マージンで実装する。
提案アルゴリズムの特定のケースは、教師付きケースにおける最小二乗支援ベクトルマシン、完全に教師なしシステマにおけるスペクトルクラスタリング、および半教師付きグラフベースアプローチのクラスであることを示す。
論文 参考訳(メタデータ) (2023-10-20T11:46:12Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - Algorithms for Non-Stationary Generalized Linear Bandits [0.0]
ロジスティック回帰は、標準線形モデリングの使用よりも好ましいことが知られている。
スライドウインドウと最大形状推定器のどちらかを利用する2つの高信頼境界ベースアルゴリズムを提案する。
一般的な文脈系列に対するこれらのアルゴリズムの挙動と急激な変化の存在に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-03-23T07:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。