論文の概要: Probabilistic Constrained Reinforcement Learning with Formal Interpretability
- arxiv url: http://arxiv.org/abs/2307.07084v4
- Date: Mon, 17 Jun 2024 12:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:50:30.066194
- Title: Probabilistic Constrained Reinforcement Learning with Formal Interpretability
- Title(参考訳): 形式的解釈性を考慮した確率的制約付き強化学習
- Authors: Yanran Wang, Qiuchen Qian, David Boyle,
- Abstract要約: 本稿では,これらの解釈可能性問題に対処するために,適応ワッサースタイン変分最適化(AWaVO)を提案する。
提案手法は,コンバージェンス保証の解釈可能性,透明性の訓練,本質的な決定解釈を実現するために形式的手法を用いる。
TRPO-IPO, PCPO, CRPOといった最先端ベンチマークと比較して, AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。
- 参考スコア(独自算出の注目度): 2.990411348977783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and the corresponding optimal policy. Consequently, representing sequential decision-making problems as probabilistic inference can have considerable value, as, in principle, the inference offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of policy optimization. In this study, we propose a novel Adaptive Wasserstein Variational Optimization, namely AWaVO, to tackle these interpretability challenges. Our approach uses formal methods to achieve the interpretability for convergence guarantee, training transparency, and intrinsic decision-interpretation. To demonstrate its practicality, we showcase guaranteed interpretability with an optimal global convergence rate in simulation and in practical quadrotor tasks. In comparison with state-of-the-art benchmarks including TRPO-IPO, PCPO and CRPO, we empirically verify that AWaVO offers a reasonable trade-off between high performance and sufficient interpretability.
- Abstract(参考訳): 強化学習は、変動力学を用いた逐次決定問題に対する効果的な推論を提供することができる。
しかし、実際的な実装におけるそのような推論は、報酬関数と対応する最適ポリシーを解釈する上で、永続的な課題となる。
したがって、逐次意思決定問題を確率的推論として表すことは、原則として、この推論は、確率的力学を推論し、政策最適化の確率論的解釈を示唆しながら、多様で強力な数学的ツールを提供する。
本研究では,これらの解釈可能性問題に対処するために,適応ワッサースタイン変分最適化(AWaVO)を提案する。
提案手法は,コンバージェンス保証の解釈可能性,透明性の訓練,本質的な決定解釈を実現するために形式的手法を用いる。
その実用性を示すために,シミュレーションおよび実運用4次タスクにおいて,最適な大域収束率で解釈可能性を示す。
TRPO-IPO、PCPO、CRPOといった最先端のベンチマークと比較して、AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。
関連論文リスト
- Probabilistic Subspace Manifolds for Contextual Inference in Large Language Models [0.0]
トークンの埋め込みを確率分布として表現することで、より柔軟な文脈推論が可能になる。
確率埋め込みは、近隣の一貫性を改善し、冗長性を減少させる。
確率埋め込みは、堅牢性に基づく評価シナリオの下でもコンテキスト整合性を維持する。
論文 参考訳(メタデータ) (2025-02-07T21:32:32Z) - Prediction-Powered E-Values [0.66567375919026]
予測型推論のアイデアをe-valueに適用する。
e-values でフレーム化できるすべての推論手順には予測機能があることを示す。
私たちのアプローチはモジュール化されており、既存のアルゴリズムに簡単に統合できます。
論文 参考訳(メタデータ) (2025-02-06T18:36:01Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [10.142949909263846]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning [20.48276559928517]
ポアソン確率分布を用いて離散的なポリシーを一元的に制約する素直なアーキテクチャを導入する。
本研究では, 単調な確率分布を持つ離散ポリシーが, オンライン強化学習アルゴリズムにおいて, より高速な収束と高い性能をもたらすことを示す実験を行った。
論文 参考訳(メタデータ) (2024-08-01T06:06:53Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。