論文の概要: Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming
- arxiv url: http://arxiv.org/abs/2312.10230v1
- Date: Fri, 15 Dec 2023 21:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:48:22.088400
- Title: Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming
- Title(参考訳): 可変凸プログラミングを用いた適応型安全保証のための制約付きメタ強化学習
- Authors: Minjae Cho and Chuangchuang Sun
- Abstract要約: 本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
- 参考スコア(独自算出の注目度): 4.825619788907192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable achievements in artificial intelligence, the deployability
of learning-enabled systems in high-stakes real-world environments still faces
persistent challenges. For example, in safety-critical domains like autonomous
driving, robotic manipulation, and healthcare, it is crucial not only to
achieve high performance but also to comply with given constraints.
Furthermore, adaptability becomes paramount in non-stationary domains, where
environmental parameters are subject to change. While safety and adaptability
are recognized as key qualities for the new generation of AI, current
approaches have not demonstrated effective adaptable performance in constrained
settings. Hence, this paper breaks new ground by studying the unique challenges
of ensuring safety in non-stationary environments by solving constrained
problems through the lens of the meta-learning approach (learning-to-learn).
While unconstrained meta-learning al-ready encounters complexities in
end-to-end differentiation of the loss due to the bi-level nature, its
constrained counterpart introduces an additional layer of difficulty, since the
constraints imposed on task-level updates complicate the differentiation
process. To address the issue, we first employ successive convex-constrained
policy updates across multiple tasks with differentiable convexprogramming,
which allows meta-learning in constrained scenarios by enabling end-to-end
differentiation. This approach empowers the agent to rapidly adapt to new tasks
under non-stationarity while ensuring compliance with safety constraints.
- Abstract(参考訳): 人工知能における顕著な業績にもかかわらず、ハイステイクな実環境における学習可能なシステムの展開性は依然として永続的な課題に直面している。
例えば、自律運転、ロボット操作、医療といった安全クリティカルな領域では、ハイパフォーマンスを達成するだけでなく、与えられた制約に従うことも重要です。
さらに、環境パラメータが変化する非定常領域では適応性が最重要となる。
安全と適応性は、新しい世代のAIの重要な品質として認識されているが、現在のアプローチでは、制約された設定で効果的な適応性性能を示さない。
そこで本稿では,非定常環境における安全確保の課題を,メタラーニングアプローチ(ラーニング・トゥ・リールン)のレンズを通して解き明かした。
制約のないメタラーニングは、両レベルの性質による損失のエンド・ツー・エンドの区別において複雑さに遭遇するが、タスクレベルの更新に課される制約は、その区別プロセスを複雑にするため、その制約が課せられる。
この問題に対処するために,我々はまず,拡張可能な凸プログラミングを備えた複数のタスクにまたがる,convex-constrained policy update(convex-constrained policy update)を連続的に採用する。
このアプローチにより、安全制約の遵守を確保しつつ、非定常下での新しいタスクに迅速に適応することが可能になる。
関連論文リスト
- HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - A CMDP-within-online framework for Meta-Safe Reinforcement Learning [23.57318558833378]
CMDP-within-onlineフレームワークを用いたメタセーフ強化学習(Meta-SRL)の課題について検討する。
我々は,勾配に基づくメタ学習を用いて,目に見えない(最適性ギャップ)と制約違反に対する平均的後悔境界を求める。
本稿では,タスク内最適性ギャップと制約違反の上限において,不正確なオンライン学習を行うメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:28:42Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文 参考訳(メタデータ) (2023-09-18T22:02:47Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Maximum Causal Entropy Inverse Constrained Reinforcement Learning [3.409089945290584]
本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-04T14:18:19Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Safe Active Dynamics Learning and Control: A Sequential
Exploration-Exploitation Framework [30.58186749790728]
本研究では,力学の不確実性の存在下での安全性を維持するための理論的に正当なアプローチを提案する。
我々のフレームワークは、常に全ての制約の高確率満足度を保証します。
この理論解析は、オンライン適応能力を改善する最終層メタラーニングモデルの2つの正則化を動機付けている。
論文 参考訳(メタデータ) (2020-08-26T17:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。