論文の概要: Constrained Exploration in Reinforcement Learning with Optimality
Preservation
- arxiv url: http://arxiv.org/abs/2304.03104v1
- Date: Wed, 5 Apr 2023 15:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:00:29.048705
- Title: Constrained Exploration in Reinforcement Learning with Optimality
Preservation
- Title(参考訳): 最適性保存による強化学習における制約付き探索
- Authors: Peter C. Y. Chen
- Abstract要約: 本稿では,エージェントが行動ポリシーに従って個別の状態行動空間を探索し,最適な政策を見つけるための強化学習システムについて考察する。
このような制限は、エージェントがいくつかの状態-作用ペアを訪問することを妨げる可能性がある。
本稿では,最適性保持を伴う制約付き探索の概念を導入し,エージェントの探索動作を仕様を満たすよう制約する。
- 参考スコア(独自算出の注目度): 2.4671396651514983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a class of reinforcement-learning systems in which the agent
follows a behavior policy to explore a discrete state-action space to find an
optimal policy while adhering to some restriction on its behavior. Such
restriction may prevent the agent from visiting some state-action pairs,
possibly leading to the agent finding only a sub-optimal policy. To address
this problem we introduce the concept of constrained exploration with
optimality preservation, whereby the exploration behavior of the agent is
constrained to meet a specification while the optimality of the (original)
unconstrained learning process is preserved. We first establish a
feedback-control structure that models the dynamics of the unconstrained
learning process. We then extend this structure by adding a supervisor to
ensure that the behavior of the agent meets the specification, and establish
(for a class of reinforcement-learning problems with a known deterministic
environment) a necessary and sufficient condition under which optimality is
preserved. This work demonstrates the utility and the prospect of studying
reinforcement-learning problems in the context of the theories of
discrete-event systems, automata and formal languages.
- Abstract(参考訳): 本稿では,エージェントが行動ポリシーに従って個別の状態行動空間を探索し,その行動に一定の制約を課しながら最適な行動方針を求める,強化学習システムについて考察する。
このような制限は、エージェントがいくつかの状態-作用ペアを訪問することを妨げる可能性がある。
この問題に対処するために,制約付き探索と最適性保存の概念を導入し,エージェントの探索動作を仕様を満たすように制約し,(元の)制約なし学習プロセスの最適性を保存する。
まず,制約のない学習プロセスのダイナミクスをモデル化するフィードバック制御構造を確立する。
次に,エージェントの動作が仕様を満たすことを保証するためにスーパーバイザを追加し,最適性を保った必要十分条件(既知の決定論的環境を持つ強化学習問題のクラス)を確立することにより,この構造を拡張した。
本研究は,離散事象システム,オートマトン,形式言語の理論の文脈における強化学習問題の研究の有用性と展望を示す。
関連論文リスト
- Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Maximum Causal Entropy Inverse Constrained Reinforcement Learning [3.409089945290584]
本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-04T14:18:19Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - A Globally Convergent Evolutionary Strategy for Stochastic Constrained
Optimization with Applications to Reinforcement Learning [0.6445605125467573]
進化的戦略は、強化学習における複雑な最適化問題に対して、競合する性能のレベルを達成することが示されている。
しかし、制約された問題を最適化する進化戦略の収束保証は文献に欠けている。
論文 参考訳(メタデータ) (2022-02-21T17:04:51Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。