論文の概要: A Globally Convergent Evolutionary Strategy for Stochastic Constrained
Optimization with Applications to Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.10464v1
- Date: Mon, 21 Feb 2022 17:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 09:05:32.906383
- Title: A Globally Convergent Evolutionary Strategy for Stochastic Constrained
Optimization with Applications to Reinforcement Learning
- Title(参考訳): 確率的制約付き最適化のためのグローバル収束進化戦略と強化学習への応用
- Authors: Youssef Diouane and Aurelien Lucchi and Vihang Patil
- Abstract要約: 進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。
しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evolutionary strategies have recently been shown to achieve competing levels
of performance for complex optimization problems in reinforcement learning. In
such problems, one often needs to optimize an objective function subject to a
set of constraints, including for instance constraints on the entropy of a
policy or to restrict the possible set of actions or states accessible to an
agent. Convergence guarantees for evolutionary strategies to optimize
stochastic constrained problems are however lacking in the literature. In this
work, we address this problem by designing a novel optimization algorithm with
a sufficient decrease mechanism that ensures convergence and that is based only
on estimates of the functions. We demonstrate the applicability of this
algorithm on two types of experiments: i) a control task for maximizing rewards
and ii) maximizing rewards subject to a non-relaxable set of constraints.
- Abstract(参考訳): 進化戦略は強化学習における複雑な最適化問題に対して、競合するレベルのパフォーマンスを達成することが最近示されている。
このような問題では、例えばポリシーのエントロピーに関する制約や、エージェントがアクセス可能なアクションや状態のセットを制限するなど、一連の制約を受ける客観的関数を最適化する必要があることが多い。
しかし、確率的制約のある問題を最適化する進化戦略の収束保証は文献に欠けている。
本研究では,関数の推定値のみに基づいて収束を保証する機構を十分に備えた新しい最適化アルゴリズムを設計することで,この問題に対処する。
このアルゴリズムを2種類の実験に応用できることを実証する。
一 報酬を最大化するための制御課題
二 非緩和不能な制約の対象となる報酬を最大化すること。
関連論文リスト
- A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - A Double Tracking Method for Optimization with Decentralized Generalized Orthogonality Constraints [4.6796315389639815]
分散最適化問題は分散制約の存在下では解決できない。
目的関数の勾配と制約写像のヤコビアンを同時に追跡する新しいアルゴリズムを導入する。
合成と実世界の両方のデータセットに数値的な結果を示す。
論文 参考訳(メタデータ) (2024-09-08T06:57:35Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Evolutionary Alternating Direction Method of Multipliers for Constrained
Multi-Objective Optimization with Unknown Constraints [17.392113376816788]
制約付き多目的最適化問題(CMOP)は、科学、工学、設計における現実世界の応用に及んでいる。
本稿では,目的関数と制約関数を分離する乗算器の交互方向法の原理に着想を得た,この種の進化的最適化フレームワークについて紹介する。
本研究の枠組みは,元の問題を2つのサブプロブレムの付加形式に再構成することで,未知の制約でCMOPに対処する。
論文 参考訳(メタデータ) (2024-01-02T00:38:20Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Runtime Analysis of Single- and Multi-Objective Evolutionary Algorithms for Chance Constrained Optimization Problems with Normally Distributed Random Variables [11.310502327308575]
独立して通常は分散しているコンポーネントのシナリオについて研究する。
期待されるコストとその分散をトレードオフする問題を多目的に定式化する。
また,本手法は,木に散らばった最小限の問題に対して最適解の集合を計算するためにも有効であることを示す。
論文 参考訳(メタデータ) (2021-09-13T09:24:23Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。