論文の概要: R2L: Reliable Reinforcement Learning: Guaranteed Return & Reliable Policies in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.18074v1
- Date: Mon, 20 Oct 2025 20:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.551333
- Title: R2L: Reliable Reinforcement Learning: Guaranteed Return & Reliable Policies in Reinforcement Learning
- Title(参考訳): R2L:Reliable Reinforcement Learning:Regforcement LearningにおけるRegranteed Return and Reliable Policies
- Authors: Nadir Farhi,
- Abstract要約: 強化学習(RL)における信頼性の高い政策決定の問題に対処する。
本稿では,累積回帰が所定の閾値を超える確率を最大化する新しい定式化を提案する。
我々は、この信頼性の高いRL問題を、状態拡張された表現を通して、標準のRL問題に再構成できることを実証する。
- 参考スコア(独自算出の注目度): 2.741266294612775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the problem of determining reliable policies in reinforcement learning (RL), with a focus on optimization under uncertainty and the need for performance guarantees. While classical RL algorithms aim at maximizing the expected return, many real-world applications - such as routing, resource allocation, or sequential decision-making under risk - require strategies that ensure not only high average performance but also a guaranteed probability of success. To this end, we propose a novel formulation in which the objective is to maximize the probability that the cumulative return exceeds a prescribed threshold. We demonstrate that this reliable RL problem can be reformulated, via a state-augmented representation, into a standard RL problem, thereby allowing the use of existing RL and deep RL algorithms without the need for entirely new algorithmic frameworks. Theoretical results establish the equivalence of the two formulations and show that reliable strategies can be derived by appropriately adapting well-known methods such as Q-learning or Dueling Double DQN. To illustrate the practical relevance of the approach, we consider the problem of reliable routing, where the goal is not to minimize the expected travel time but rather to maximize the probability of reaching the destination within a given time budget. Numerical experiments confirm that the proposed formulation leads to policies that effectively balance efficiency and reliability, highlighting the potential of reliable RL for applications in stochastic and safety-critical environments.
- Abstract(参考訳): 本研究では、不確実性の下での最適化と性能保証の必要性に着目し、強化学習(RL)における信頼性の高いポリシー決定の問題に対処する。
古典的なRLアルゴリズムは期待されるリターンを最大化することを目的としているが、ルーティングやリソース割り当て、リスク下でのシーケンシャルな意思決定といった現実世界の多くのアプリケーションは、高い平均的なパフォーマンスだけでなく、成功の確率も保証する戦略を必要としている。
そこで本研究では,累積回帰が所定の閾値を超える確率を最大化する新しい定式化を提案する。
我々は、この信頼性の高いRL問題を、状態拡張された表現を通して、標準のRL問題に再構成できることを示し、それによって、完全に新しいアルゴリズムフレームワークを必要とせずに、既存のRLおよび深部RLアルゴリズムの使用を可能にする。
理論的結果は2つの定式化の等価性を確立し、Q-learning や Duling Double DQN といったよく知られた手法を適切に適用することにより、信頼性の高い戦略を導出できることを示す。
提案手法の実践的妥当性を説明するため,提案手法は,予定走行時間を最小化するのではなく,所定の時間予算内で目的地に到達する確率を最大化することを目的としており,信頼性の高いルーティングの問題を考える。
数値実験により,提案した定式化が効率性と信頼性のバランスを効果的に保ち,確率的および安全クリティカルな環境におけるアプリケーションに対する信頼性の高いRLの可能性を強調した。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:19:45Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。