論文の概要: Safe Reinforcement Learning as Wasserstein Variational Inference: Formal
Methods for Interpretability
- arxiv url: http://arxiv.org/abs/2307.07084v2
- Date: Thu, 8 Feb 2024 18:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:22:40.053923
- Title: Safe Reinforcement Learning as Wasserstein Variational Inference: Formal
Methods for Interpretability
- Title(参考訳): Wasserstein変分推論としての安全な強化学習:解釈可能性のための形式的手法
- Authors: Yanran Wang, David Boyle
- Abstract要約: 本稿では,適応ワッサースタイン変分最適化(Adaptive Wasserstein Variational Optimization, AWaVO)を提案する。
提案手法は形式的手法を用いて報酬設計の解釈、訓練収束の透明性、逐次決定の確率論的解釈を提供する。
- 参考スコア(独自算出の注目度): 2.7467053150385956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning or optimal control can provide effective reasoning for
sequential decision-making problems with variable dynamics. Such reasoning in
practical implementation, however, poses a persistent challenge in interpreting
the reward function and corresponding optimal policy. Consequently, formalizing
the sequential decision-making problems as inference has a considerable value,
as probabilistic inference in principle offers diverse and powerful
mathematical tools to infer the stochastic dynamics whilst suggesting a
probabilistic interpretation of the reward design and policy convergence. In
this study, we propose a novel Adaptive Wasserstein Variational Optimization
(AWaVO) to tackle these challenges in sequential decision-making. Our approach
utilizes formal methods to provide interpretations of reward design,
transparency of training convergence, and probabilistic interpretation of
sequential decisions. To demonstrate practicality, we show convergent training
with guaranteed global convergence rates not only in simulation but also in
real robot tasks, and empirically verify a reasonable tradeoff between high
performance and conservative interpretability.
- Abstract(参考訳): 強化学習や最適制御は、可変ダイナミクスを伴う逐次的意思決定問題に対して効果的な推論を提供する。
しかし、実際の実施におけるこのような推論は、報酬機能と対応する最適方針を解釈する上で、永続的な課題となる。
したがって、逐次決定問題を推論として定式化することは、確率的推論が確率的力学を推論し、報酬設計と政策収束の確率論的解釈を示唆しながら、多種多様な強力な数学的ツールを提供するため、かなりの価値がある。
本研究では,逐次意思決定においてこれらの課題に取り組むための適応的ワッサースタイン変分最適化(awavo)を提案する。
本手法は,報酬設計の解釈,訓練収束の透明性,逐次決定の確率的解釈に形式的手法を用いる。
実用性を示すため,シミュレーションだけでなく,実際のロボットタスクにおいても,グローバル収束率を保証する収束訓練を行い,高い性能と保守的解釈性の間の合理的なトレードオフを実証的に検証した。
関連論文リスト
- Probabilistic Subspace Manifolds for Contextual Inference in Large Language Models [0.0]
トークンの埋め込みを確率分布として表現することで、より柔軟な文脈推論が可能になる。
確率埋め込みは、近隣の一貫性を改善し、冗長性を減少させる。
確率埋め込みは、堅牢性に基づく評価シナリオの下でもコンテキスト整合性を維持する。
論文 参考訳(メタデータ) (2025-02-07T21:32:32Z) - Prediction-Powered E-Values [0.66567375919026]
予測型推論のアイデアをe-valueに適用する。
e-values でフレーム化できるすべての推論手順には予測機能があることを示す。
私たちのアプローチはモジュール化されており、既存のアルゴリズムに簡単に統合できます。
論文 参考訳(メタデータ) (2025-02-06T18:36:01Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [10.142949909263846]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning [20.48276559928517]
ポアソン確率分布を用いて離散的なポリシーを一元的に制約する素直なアーキテクチャを導入する。
本研究では, 単調な確率分布を持つ離散ポリシーが, オンライン強化学習アルゴリズムにおいて, より高速な収束と高い性能をもたらすことを示す実験を行った。
論文 参考訳(メタデータ) (2024-08-01T06:06:53Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。