論文の概要: L2C2: Locally Lipschitz Continuous Constraint towards Stable and Smooth
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.07152v1
- Date: Tue, 15 Feb 2022 02:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:43:18.137834
- Title: L2C2: Locally Lipschitz Continuous Constraint towards Stable and Smooth
Reinforcement Learning
- Title(参考訳): L2C2: 安定・平滑強化学習への局所リプシッツ連続制約
- Authors: Taisuke Kobayashi
- Abstract要約: 強化学習(RL)は、学習過程の不安定さと、取得したポリシーのノイズに対する感受性で知られている。
本稿では、ポリシーと値関数のスムーズな安定化に向けて、RLの新しい正規化手法を提案する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new regularization technique for reinforcement learning
(RL) towards making policy and value functions smooth and stable. RL is known
for the instability of the learning process and the sensitivity of the acquired
policy to noise. Several methods have been proposed to resolve these problems,
and in summary, the smoothness of policy and value functions learned mainly in
RL contributes to these problems. However, if these functions are extremely
smooth, their expressiveness would be lost, resulting in not obtaining the
global optimal solution. This paper therefore considers RL under local
Lipschitz continuity constraint, so-called L2C2. By designing the
spatio-temporal locally compact space for L2C2 from the state transition at
each time step, the moderate smoothness can be achieved without loss of
expressiveness. Numerical noisy simulations verified that the proposed L2C2
outperforms the task performance while smoothing out the robot action generated
from the learned policy.
- Abstract(参考訳): 本稿では,政策と価値機能を円滑かつ安定にするための強化学習(RL)のための新しい正規化手法を提案する。
RLは学習過程の不安定さと、取得したポリシーのノイズに対する感受性で知られている。
これらの問題を解決するためにいくつかの方法が提案され、まとめると、RLで主に学んだポリシーと値関数の滑らかさがこれらの問題に寄与する。
しかし、これらの関数が非常に滑らかであれば、その表現性が失われ、大域最適解が得られない。
そこで本稿では、局所リプシッツ連続性制約(L2C2)の下でRLを考える。
各段階における状態遷移からL2C2の時空間的局所コンパクト空間を設計することにより、表現性を損なうことなく適度な滑らか性を実現できる。
提案するl2c2は,学習方針から生成したロボット動作を平滑化しつつ,タスク性能を上回ることを確認した。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Over Contracting and Lipschitz Closed-Loops for
Partially-Observed Nonlinear Systems (Extended Version) [1.2430809884830318]
本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
結果のYoula-RENパラメータ化は自動的に安定性(収縮)とユーザチューニング可能な堅牢性(Lipschitz)を満足することを示した。
We found that the Youla-REN are also like to existing learning-based and optimal control method, also ensure stability and exhibiting improve robustness to adversarial disturbances。
論文 参考訳(メタデータ) (2023-04-12T23:55:56Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-28T07:18:29Z) - Robust Reinforcement Learning: A Case Study in Linear Quadratic
Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。
LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-08-25T11:11:28Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。