Fugu-MT 論文翻訳(概要): Regularized Q-Learning with Linear Function Approximation

論文の概要: Regularized Q-Learning with Linear Function Approximation

arxiv url: http://arxiv.org/abs/2401.15196v1
Date: Fri, 26 Jan 2024 20:45:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 19:38:19.409406
Title: Regularized Q-Learning with Linear Function Approximation
Title（参考訳）: 線形関数近似を用いた正規化Q-Learning
Authors: Jiachen Xi, Alfredo Garcia, Petar Momcilovic
Abstract要約: 本稿では,有限時間収束保証によるベルマン誤差最小化のための単一ループアルゴリズムについて考察する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
参考スコア（独自算出の注目度）: 3.10770247120758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several successful reinforcement learning algorithms make use of regularization to promote multi-modal policies that exhibit enhanced exploration and robustness. With functional approximation, the convergence properties of some of these algorithms (e.g. soft Q-learning) are not well understood. In this paper, we consider a single-loop algorithm for minimizing the projected Bellman error with finite time convergence guarantees in the case of linear function approximation. The algorithm operates on two scales: a slower scale for updating the target network of the state-action values, and a faster scale for approximating the Bellman backups in the subspace of the span of basis vectors. We show that, under certain assumptions, the proposed algorithm converges to a stationary point in the presence of Markovian noise. In addition, we provide a performance guarantee for the policies derived from the proposed algorithm.
Abstract（参考訳）: いくつかの強化学習アルゴリズムは、探索と堅牢性の強化を示すマルチモーダルポリシーを促進するために正規化を利用する。関数近似では、これらのアルゴリズムの収束特性(ソフトQ-ラーニングなど)はよく理解されていない。本稿では,線形関数近似の場合の有限時間収束保証により,投影されたベルマン誤差を最小化する単一ループアルゴリズムについて考察する。このアルゴリズムは、状態動作値のターゲットネットワークを更新するためのより遅いスケールと、基底ベクトルのスパン部分空間におけるベルマンバックアップを近似する高速なスケールの2つのスケールで動作する。特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。また,提案アルゴリズムから得られたポリシーに対して性能保証を行う。

関連論文リスト

BayeSQP: Bayesian Optimization through Sequential Quadratic Programming [12.643071505470056]
BayeSQPは一般的なブラックボックス最適化のための新しいアルゴリズムである。逐次二次プログラミングの構造とベイズ最適化の概念を組み合わせる。 BayeSQPは高次元設定で最先端の手法より優れている。
論文参考訳（メタデータ） (2026-02-03T08:08:03Z)
A Lyapunov Framework for Quantum Algorithm Design in Combinatorial Optimization with Approximation Ratio Guarantees [15.259020859762556]
最適化問題に対する量子アルゴリズムの設計を目的としたフレームワークを開発する。近似比の理論的な保証を提供する。本手法をMax-Cut問題に適用し,適応型変分量子アルゴリズムとして実装する。
論文参考訳（メタデータ） (2025-12-25T15:38:24Z)
Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文参考訳（メタデータ） (2023-02-01T08:50:48Z)
Adaptive Stochastic Optimisation of Nonconvex Composite Objectives [2.1700203922407493]
一般化された複合ミラー降下アルゴリズムの一群を提案し,解析する。適応的なステップサイズでは、提案アルゴリズムは問題の事前知識を必要とせずに収束する。決定集合の低次元構造を高次元問題に活用する。
論文参考訳（メタデータ） (2022-11-21T18:31:43Z)
Structural Estimation of Markov Decision Processes in High-Dimensional State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-04T00:11:38Z)
Zeroth and First Order Stochastic Frank-Wolfe Algorithms for Constrained Optimization [13.170519806372075]
2組の制約を持つ凸最適化の問題は、半定値プログラミングの文脈で頻繁に発生する。最初の制約セットへのプロジェクションは困難であるため、プロジェクションフリーなアルゴリズムを探索する必要がある。提案アルゴリズムの有効性は, スパース行列推定, 半定緩和によるクラスタリング, および一様スペースカット問題の適用性について検証した。
論文参考訳（メタデータ） (2021-07-14T08:01:30Z)
A Stochastic Sequential Quadratic Optimization Algorithm for Nonlinear Equality Constrained Optimization with Rank-Deficient Jacobians [11.03311584463036]
滑らかな非線形等式制約最適化問題の解法として, 逐次2次最適化アルゴリズムを提案する。数値実験の結果、このアルゴリズムは一般的な代替品と比較して優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-24T13:46:52Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Sequential Quadratic Optimization for Nonlinear Equality Constrained Stochastic Optimization [10.017195276758454]
この設定では、客観的関数と微分値を明示的に計算することは難しそうだと仮定する。最先端のライン探索SQPアルゴリズムをモデルとした決定論的設定のためのアルゴリズムを提案する。数値実験の結果は,提案手法の実用性を示すものである。
論文参考訳（メタデータ） (2020-07-20T23:04:26Z)
Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文参考訳（メタデータ） (2020-07-01T18:43:32Z)
Convergence of adaptive algorithms for weakly convex constrained optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文参考訳（メタデータ） (2020-06-11T17:43:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。