論文の概要: Efficient Algorithms for Mitigating Uncertainty and Risk in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.17690v1
- Date: Mon, 20 Oct 2025 16:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.516541
- Title: Efficient Algorithms for Mitigating Uncertainty and Risk in Reinforcement Learning
- Title(参考訳): 強化学習における不確かさとリスクの軽減のための効率的なアルゴリズム
- Authors: Xihong Su,
- Abstract要約: 論文は3つの主な貢献をします
まず、MMDPにおけるポリシー勾配と動的プログラミングの新たな関係を同定する。
第2に、指数的ERMベルマン作用素が収縮となるための十分かつ必要な条件を確立する。
第3に,リスク回避目的を考慮したモデルフリーQ-ラーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This dissertation makes three main contributions. First, We identify a new connection between policy gradient and dynamic programming in MMDPs and propose the Coordinate Ascent Dynamic Programming (CADP) algorithm to compute a Markov policy that maximizes the discounted return averaged over the uncertain models. CADP adjusts model weights iteratively to guarantee monotone policy improvements to a local maximum. Second, We establish sufficient and necessary conditions for the exponential ERM Bellman operator to be a contraction and prove the existence of stationary deterministic optimal policies for ERM-TRC and EVaR-TRC. We also propose exponential value iteration, policy iteration, and linear programming algorithms for computing optimal stationary policies for ERM-TRC and EVaR-TRC. Third, We propose model-free Q-learning algorithms for computing policies with risk-averse objectives: ERM-TRC and EVaR-TRC. The challenge is that Q-learning ERM Bellman may not be a contraction. Instead, we use the monotonicity of Q-learning ERM Bellman operators to derive a rigorous proof that the ERM-TRC and the EVaR-TRC Q-learning algorithms converge to the optimal risk-averse value functions. The proposed Q-learning algorithms compute the optimal stationary policy for ERM-TRC and EVaR-TRC.
- Abstract(参考訳): この論文は3つの主要な貢献をしている。
まず、MMDPにおけるポリシー勾配と動的プログラミングの新たな関係を同定し、不確実なモデル上で平均値の割引を最大化するマルコフポリシーを計算するためのコーディネート・アセンション・ダイナミック・プログラミング(CADP)アルゴリズムを提案する。
CADPは、局所的な最大値に対する単調ポリシーの改善を保証するために、反復的にモデルの重みを調整する。
第2に、指数的ERMベルマン作用素が収縮であるために必要な条件を確立し、ERM-TRCとEVaR-TRCの定常決定論的最適ポリシーの存在を証明した。
また、ERM-TRCとEVaR-TRCの最適定常ポリシーを計算するための指数値反復、ポリシー反復、線形プログラミングアルゴリズムを提案する。
第3に,リスク回避を目標としたモデルフリーなQ-ラーニングアルゴリズム,ERM-TRCとEVaR-TRCを提案する。
課題は、Q-learning ERM Bellmanが契約ではないことだ。
代わりに、Q-learning ERM Bellman演算子の単調性を用いて、ERM-TRCとEVaR-TRC Q-learningアルゴリズムが最適リスク-逆値関数に収束するという厳密な証明を導出する。
提案アルゴリズムは,ERM-TRCとEVaR-TRCの最適定常ポリシーを計算する。
関連論文リスト
- Risk-Averse Total-Reward Reinforcement Learning [9.129584027640405]
リスク逆トータルリワードマルコフ決定プロセス(MDP)は、未公表の無限水平目標をモデル化し解決するための有望なフレームワークを提供する。
エントロピーリスク測度(ERM)やエントロピーバリュー・アット・リスク(EVaR)のような既存のリスク測度のためのモデルベースのアルゴリズムは、小さな問題に対して有効であるが、遷移確率への完全なアクセスが必要である。
本稿では,完全逆ERMとEVaRの目標に対して,コンバージェンスと性能保証を両立させるためのQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-26T18:10:51Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。
RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。
弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文 参考訳(メタデータ) (2025-03-22T03:18:09Z) - Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning
Approach [66.53364438507208]
アクティブな再構成可能なインテリジェントサーフェス(RIS)支援マルチユーザダウンリンク通信システムについて検討した。
非直交多重アクセス(NOMA)はスペクトル効率を向上させるために使用され、活性RISはエネルギー回収(EH)によって駆動される。
ユーザの動的通信状態を予測するために,高度なLSTMベースのアルゴリズムを開発した。
増幅行列と位相シフト行列RISを結合制御するためにDDPGに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:16:28Z) - A State-Augmented Approach for Learning Optimal Resource Management
Decisions in Wireless Networks [58.720142291102135]
マルチユーザ無線ネットワークにおける無線リソース管理(RRM)問題について考察する。
目標は、ユーザのエルゴード平均パフォーマンスに制約を受けるネットワーク全体のユーティリティ機能を最適化することである。
本稿では, RRM の制約に対応する2変数の集合を入力として, 瞬時ネットワーク状態と並行して, RRM のパラメータ化を提案する。
論文 参考訳(メタデータ) (2022-10-28T21:24:13Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。