Fugu-MT 論文翻訳(概要): Provably Safe Reinforcement Learning using Entropy Regularizer

論文の概要: Provably Safe Reinforcement Learning using Entropy Regularizer

arxiv url: http://arxiv.org/abs/2601.08646v1
Date: Tue, 13 Jan 2026 15:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-14 18:27:19.257559
Title: Provably Safe Reinforcement Learning using Entropy Regularizer
Title（参考訳）: エントロピー正規化器を用いた潜在的に安全な強化学習
Authors: Abhijit Mazumdar, Rafal Wisniewski, Manuela L. Bujorianu,
Abstract要約: 安全制約のあるマルコフ決定プロセスの最適方針を学習する問題を考察する。我々のゴールは、任意に高い確率で安全制約を保証するオンライン強化学習アルゴリズムを設計することである。
参考スコア（独自算出の注目度）: 1.1317136648551536
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We consider the problem of learning the optimal policy for Markov decision processes with safety constraints. We formulate the problem in a reach-avoid setup. Our goal is to design online reinforcement learning algorithms that ensure safety constraints with arbitrarily high probability during the learning phase. To this end, we first propose an algorithm based on the optimism in the face of uncertainty (OFU) principle. Based on the first algorithm, we propose our main algorithm, which utilizes entropy regularization. We investigate the finite-sample analysis of both algorithms and derive their regret bounds. We demonstrate that the inclusion of entropy regularization improves the regret and drastically controls the episode-to-episode variability that is inherent in OFU-based safe RL algorithms.
Abstract（参考訳）: 安全制約のあるマルコフ決定プロセスの最適方針を学習する問題を考察する。我々はその問題をリーチエイドの設定で定式化する。我々の目標は、学習期間中に安全制約を任意に高い確率で保証するオンライン強化学習アルゴリズムを設計することである。そこで我々はまず,不確実性(OFU)原理に直面する最適化に基づくアルゴリズムを提案する。最初のアルゴリズムに基づいてエントロピー正則化を利用する主アルゴリズムを提案する。両アルゴリズムの有限サンプル解析について検討し,その残差を導出する。エントロピー正則化の導入は後悔を改善させ,OFUベースの安全なRLアルゴリズムに固有のエピソード・ツー・エポソードの変動を劇的に制御することを示した。

関連論文リスト

Exploratory Optimal Stopping: A Singular Control Formulation [2.7309692684728613]
強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。乱数停止時間の累積残エントロピーをペナル化することにより、問題の正規化版を導入する。実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出する。
論文参考訳（メタデータ） (2024-08-18T02:31:55Z)
Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。学習方針は高い信頼を持って安全であることを示す。また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-03-23T20:22:30Z)
Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文参考訳（メタデータ） (2024-02-24T09:47:46Z)
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文参考訳（メタデータ） (2023-11-01T22:12:50Z)
Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-10-05T00:47:09Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
Safe Online Bid Optimization with Return-On-Investment and Budget Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文参考訳（メタデータ） (2022-01-18T17:24:20Z)
Safe Online Convex Optimization with Unknown Linear Safety Constraints [0.0]
安全なオンライン凸最適化の問題について検討し、各ステップの動作は一連の線形安全制約を満たす必要がある。線形安全性制約を指定するパラメータはアルゴリズムでは未知である。安全なベースライン動作が可能であるという仮定の下で、SO-PGDアルゴリズムは、後悔する$O(T2/3)$を達成していることを示す。
論文参考訳（メタデータ） (2021-11-14T19:49:19Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文参考訳（メタデータ） (2020-06-01T13:48:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。