論文の概要: Safe Reinforcement Learning as Wasserstein Variational Inference: Formal
Methods for Interpretability
- arxiv url: http://arxiv.org/abs/2307.07084v1
- Date: Thu, 13 Jul 2023 22:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:20:19.765583
- Title: Safe Reinforcement Learning as Wasserstein Variational Inference: Formal
Methods for Interpretability
- Title(参考訳): Wasserstein変分推論としての安全な強化学習:解釈可能性のための形式的手法
- Authors: Yanran Wang, David Boyle
- Abstract要約: 本稿では,適応ワッサースタイン変分最適化(Adaptive Wasserstein Variational Optimization, AWaVO)を提案する。
提案手法は形式的手法を用いて報酬設計の解釈、訓練収束の透明性、逐次決定の確率論的解釈を提供する。
- 参考スコア(独自算出の注目度): 1.116812194101501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning or optimal control can provide effective reasoning for
sequential decision-making problems with variable dynamics. Such reasoning in
practical implementation, however, poses a persistent challenge in interpreting
the reward function and corresponding optimal policy. Consequently, formalizing
the sequential decision-making problems as inference has a considerable value,
as probabilistic inference in principle offers diverse and powerful
mathematical tools to infer the stochastic dynamics whilst suggesting a
probabilistic interpretation of the reward design and policy convergence. In
this study, we propose a novel Adaptive Wasserstein Variational Optimization
(AWaVO) to tackle these challenges in sequential decision-making. Our approach
utilizes formal methods to provide interpretations of reward design,
transparency of training convergence, and probabilistic interpretation of
sequential decisions. To demonstrate practicality, we show convergent training
with guaranteed global convergence rates not only in simulation but also in
real robot tasks, and empirically verify a reasonable tradeoff between high
performance and conservative interpretability.
- Abstract(参考訳): 強化学習や最適制御は、可変ダイナミクスを伴う逐次的意思決定問題に対して効果的な推論を提供する。
しかし、実際の実施におけるこのような推論は、報酬機能と対応する最適方針を解釈する上で、永続的な課題となる。
したがって、逐次決定問題を推論として定式化することは、確率的推論が確率的力学を推論し、報酬設計と政策収束の確率論的解釈を示唆しながら、多種多様な強力な数学的ツールを提供するため、かなりの価値がある。
本研究では,逐次意思決定においてこれらの課題に取り組むための適応的ワッサースタイン変分最適化(awavo)を提案する。
本手法は,報酬設計の解釈,訓練収束の透明性,逐次決定の確率的解釈に形式的手法を用いる。
実用性を示すため,シミュレーションだけでなく,実際のロボットタスクにおいても,グローバル収束率を保証する収束訓練を行い,高い性能と保守的解釈性の間の合理的なトレードオフを実証的に検証した。
関連論文リスト
- Towards Context-Aware Domain Generalization: Understanding the Benefits
and Limits of Marginal Transfer Learning [1.5320861212113897]
我々は、コンテキストの概念をデータポイントの集合の置換不変表現として定式化する。
経験的分析により、我々の基準は好ましくないシナリオと好ましくないシナリオの両方を識別するのに有効であることが示された。
論文 参考訳(メタデータ) (2023-12-15T05:18:07Z) - Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。
両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-29T19:41:56Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。