Fugu-MT 論文翻訳(概要): On the connection between Bregman divergence and value in regularized Markov decision processes

論文の概要: On the connection between Bregman divergence and value in regularized Markov decision processes

arxiv url: http://arxiv.org/abs/2210.12160v1
Date: Fri, 21 Oct 2022 15:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 15:06:44.722472
Title: On the connection between Bregman divergence and value in regularized Markov decision processes
Title（参考訳）: 正規化マルコフ決定過程におけるブレグマン分岐と値の関係について
Authors: Brendan O'Donoghue
Abstract要約: 正規化マルコフ決定過程において,現在の政策から最適政策へのブレグマン偏差と,現在の値関数の準最適性との関係を見いだす。この結果は,マルチタスク強化学習,オフライン強化学習,および関数近似による後悔の分析などに影響を及ぼす。
参考スコア（独自算出の注目度）: 8.867416300893577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this short note we derive a relationship between the Bregman divergence from the current policy to the optimal policy and the suboptimality of the current value function in a regularized Markov decision process. This result has implications for multi-task reinforcement learning, offline reinforcement learning, and regret analysis under function approximation, among others.
Abstract（参考訳）: 本稿では, 正規化マルコフ決定過程において, 現在の政策から最適政策へのブレグマン偏差と, 現在の値関数の準最適性との関係を導出する。この結果は,マルチタスク強化学習,オフライン強化学習,および関数近似による後悔の分析などに影響を及ぼす。

関連論文リスト

Reinforcement Learning in Switching Non-Stationary Markov Decision Processes: Algorithms and Convergence Analysis [6.399565088857091]
そこで我々は,背景となるマルコフ連鎖に基づいて,環境が時間とともに切り替わる,スイッチング非定常マルコフ決定プロセス(SNS-MDP)を紹介した。固定されたポリシーの下では、SNS-MDPの値関数はマルコフ連鎖の統計的性質によって決定される閉形式解を認める。このフレームワークは、複雑な時間変化の文脈で意思決定を効果的に導くことができるかを示す。
論文参考訳（メタデータ） (2025-03-24T12:05:30Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
Recurrent Natural Policy Gradient for POMDPs [16.893624100273108]
本稿では、部分的に観測可能なマルコフ決定過程に対するリカレントニューラルネットワーク(RNN)に基づく自然ポリシー勾配法を提案する。本分析では,要求されるネットワーク幅とサンプルの複雑さに明確な境界を持つ短期記憶の問題に対して,RNNの効率性を示す。
論文参考訳（メタデータ） (2024-05-28T14:29:31Z)
Foundations of Reinforcement Learning and Interactive Decision Making [81.76863968810423]
本稿では,頻度主義的アプローチとベイズ的アプローチを用いた探索・探索ジレンマに対処するための統一的な枠組みを提案する。ニューラルネットワークのような近似とフレキシブルなモデルクラスを機能させるために特別な注意が払われる。
論文参考訳（メタデータ） (2023-12-27T21:58:45Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。 MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2023-06-02T21:22:27Z)
Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文参考訳（メタデータ） (2022-03-24T01:04:17Z)
The Last-Iterate Convergence Rate of Optimistic Mirror Descent in Stochastic Variational Inequalities [29.0058976973771]
本稿では,アルゴリズムの収束率とBregman関数によって誘導される局所幾何学との複雑な関係を示す。この指数はアルゴリズムの最適ステップサイズポリシーと得られた最適レートの両方を決定する。
論文参考訳（メタデータ） (2021-07-05T09:54:47Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
Cautious Reinforcement Learning via Distributional Risk in the Dual Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文参考訳（メタデータ） (2020-02-27T23:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。