論文の概要: Towards Interpretable Reinforcement Learning with Constrained Normalizing Flow Policies
- arxiv url: http://arxiv.org/abs/2405.01198v1
- Date: Thu, 2 May 2024 11:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:54:18.372876
- Title: Towards Interpretable Reinforcement Learning with Constrained Normalizing Flow Policies
- Title(参考訳): 制約付き正規化フローポリシによる解釈型強化学習に向けて
- Authors: Finn Rietz, Erik Schaffernicht, Stefan Heinrich, Johannes A. Stork,
- Abstract要約: 強化学習ポリシーは一般にブラックボックスニューラルネットワークによって表現される。
本稿では,フローポリシを解釈可能かつ安全な構成ポリシーモデルとして,制約付き正規化を提案する。
- 参考スコア(独自算出の注目度): 5.6872893893453105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning policies are typically represented by black-box neural networks, which are non-interpretable and not well-suited for safety-critical domains. To address both of these issues, we propose constrained normalizing flow policies as interpretable and safe-by-construction policy models. We achieve safety for reinforcement learning problems with instantaneous safety constraints, for which we can exploit domain knowledge by analytically constructing a normalizing flow that ensures constraint satisfaction. The normalizing flow corresponds to an interpretable sequence of transformations on action samples, each ensuring alignment with respect to a particular constraint. Our experiments reveal benefits beyond interpretability in an easier learning objective and maintained constraint satisfaction throughout the entire learning process. Our approach leverages constraints over reward engineering while offering enhanced interpretability, safety, and direct means of providing domain knowledge to the agent without relying on complex reward functions.
- Abstract(参考訳): 強化学習ポリシは一般的にブラックボックスニューラルネットワークによって表現される。
これら2つの問題に対処するために、我々は、解釈可能かつ安全な構成ポリシーモデルとして、フローポリシーの正規化を制約的に提案する。
我々は,制約満足度を保証する正規化フローを解析的に構築することにより,ドメイン知識を活用できる即時安全制約付き強化学習問題の安全性を実現する。
正規化フローは、アクションサンプル上の変換の解釈可能なシーケンスに対応し、それぞれが特定の制約に対してアライメントを確保する。
本実験は,学習プロセス全体を通して,学習の容易な目標と制約満足度を維持することによる,解釈可能性以上のメリットを明らかにする。
提案手法では,報酬工学に対する制約を活用しながら,複雑な報酬関数を頼らずに,ドメイン知識をエージェントに提供するための高度な解釈可能性,安全性,直接的な手段を提供する。
関連論文リスト
- DIAL: Distribution-Informed Adaptive Learning of Multi-Task Constraints for Safety-Critical Systems [13.93024489228903]
自律運転のような複雑な現実世界のタスクの安全性を確保するための事前定義された制約関数。
近年の研究では、事前取得したタスク非依存の知識を活用して、関連するタスクの安全性とサンプル効率を両立させる可能性を強調している。
複数のタスクにまたがる共有制約分布を学習するための新しい手法を提案する。
提案手法は,模擬学習を通じて共有制約を特定し,学習分布内のリスクレベルを調整することによって,新たなタスクに適応する。
論文 参考訳(メタデータ) (2025-01-30T01:56:07Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。