論文の概要: Safety-guaranteed Reinforcement Learning based on Multi-class Support
Vector Machine
- arxiv url: http://arxiv.org/abs/2006.07446v1
- Date: Fri, 12 Jun 2020 19:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:21:33.299935
- Title: Safety-guaranteed Reinforcement Learning based on Multi-class Support
Vector Machine
- Title(参考訳): マルチクラス支援ベクトルマシンを用いた安全保証強化学習
- Authors: Kwangyeon Kim, Akshita Gupta, Hong-Cheol Choi, Inseok Hwang
- Abstract要約: 決定論的システム力学を用いたモデルフリーなRL設定におけるハードステート制約を満たす問題に対処する。
提案アルゴリズムは離散状態と行動空間に対して開発され,多クラスサポートベクターマシン(SVM)を用いてポリシーを表現している。
- 参考スコア(独自算出の注目度): 5.578687473172938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several works have addressed the problem of incorporating constraints in the
reinforcement learning (RL) framework, however majority of them can only
guarantee the satisfaction of soft constraints. In this work, we address the
problem of satisfying hard state constraints in a model-free RL setting with
the deterministic system dynamics. The proposed algorithm is developed for the
discrete state and action space and utilizes a multi-class support vector
machine (SVM) to represent the policy. The state constraints are incorporated
in the SVM optimization framework to derive an analytical solution for
determining the policy parameters. This final policy converges to a solution
which is guaranteed to satisfy the constraints. Additionally, the proposed
formulation adheres to the Q-learning framework and thus, also guarantees
convergence to the optimal solution. The algorithm is demonstrated with
multiple example problems.
- Abstract(参考訳): いくつかの研究は強化学習(RL)フレームワークに制約を組み込むという問題に取り組んでいるが、そのほとんどはソフト制約の満足度を保証できない。
本稿では,決定論的システムダイナミクスを用いて,モデルフリーなrl設定におけるハードステート制約を満たす問題に対処する。
提案アルゴリズムは離散状態と行動空間に対して開発され,多クラスサポートベクトルマシン(SVM)を用いてポリシーを表現する。
状態制約はSVM最適化フレームワークに組み込まれ、ポリシーパラメータを決定するための分析ソリューションが導出されます。
この最終方針は、制約を満たすことが保証される解に収束する。
さらに,提案手法はq-learningフレームワークに準拠し,最適な解への収束を保証する。
このアルゴリズムは、複数の例題で示される。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースのシナリオにおける2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z) - Safe Reinforcement Learning of Control-Affine Systems with Vertex
Networks [14.461847761198037]
本稿では,厳密な状態と行動制約を持つ制御系に対する強化学習ポリシーの探索に焦点をあてる。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
この問題に対処するため,本研究では,探索中の安全性と学習制御ポリシを保証したVertex Networks (VNs) と呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-20T20:32:20Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。