Fugu-MT 論文翻訳(概要): Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability

論文の概要: Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability

arxiv url: http://arxiv.org/abs/2307.07084v3
Date: Sat, 10 Feb 2024 21:28:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 00:29:34.216990
Title: Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability
Title（参考訳）: Wasserstein変分推論としての安全な強化学習:解釈可能性のための形式的手法
Authors: Yanran Wang, Qiuchen Qian, David Boyle
Abstract要約: 本稿では,これらの解釈可能性問題に対処するために,適応ワッサースタイン変分最適化(AWaVO)を提案する。提案手法は,コンバージェンス保証の解釈可能性,透明性の訓練,本質的な決定解釈を実現するために形式的手法を用いる。 TRPO-IPO, PCPO, CRPOといった最先端ベンチマークと比較して, AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。
参考スコア（独自算出の注目度）: 3.360922672565235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and the corresponding optimal policy. Consequently, representing sequential decision-making problems as probabilistic inference can have considerable value, as, in principle, the inference offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of policy optimization. In this study, we propose a novel Adaptive Wasserstein Variational Optimization, namely AWaVO, to tackle these interpretability challenges. Our approach uses formal methods to achieve the interpretability for convergence guarantee, training transparency, and intrinsic decision-interpretation. To demonstrate its practicality, we showcase guaranteed interpretability with an optimal global convergence rate in simulation and in practical quadrotor tasks. In comparison with state-of-the-art benchmarks including TRPO-IPO, PCPO and CRPO, we empirically verify that AWaVO offers a reasonable trade-off between high performance and sufficient interpretability.
Abstract（参考訳）: 強化学習は、変動力学を用いた逐次決定問題に対する効果的な推論を提供することができる。しかし、実際の実施におけるこのような推論は、報酬機能と対応する最適方針を解釈する上で、永続的な課題となる。したがって、逐次的な意思決定問題を確率論的推論として表すことは、原理的には、理論的力学を推論し、政策最適化の確率論的解釈を示唆しながら、多種多様な強力な数学的ツールを提供する。本研究では,これらの解釈可能性の課題に取り組むために,新しい適応型ワッサースタイン変分最適化 awavo を提案する。提案手法は,収束保証,透明性のトレーニング,内在的決定解釈の解釈可能性を達成するために形式的手法を用いる。その実用性を示すために,シミュレーションおよび実運用4次タスクにおいて,最適な大域収束率で解釈可能性を示す。 TRPO-IPO、PCPO、CRPOといった最先端のベンチマークと比較して、AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。

関連論文リスト

CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文参考訳（メタデータ） (2025-07-10T21:32:18Z)
Learning safe, constrained policies via imitation learning: Connection to Probabilistic Inference and a Naive Algorithm [0.22099217573031676]
本稿では,タスクを実行する専門家が示す制約に従って,最大エントロピーポリシーを学習するための模倣学習手法を紹介する。実験により,制約を課す動作に対する効果的なポリシーモデルを,異なるタイプの制約が複数あり,一般化可能な設定で学習できることが示唆された。
論文参考訳（メタデータ） (2025-07-09T12:11:27Z)
Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
Probabilistic Subspace Manifolds for Contextual Inference in Large Language Models [0.0]
トークンの埋め込みを確率分布として表現することで、より柔軟な文脈推論が可能になる。確率埋め込みは、近隣の一貫性を改善し、冗長性を減少させる。確率埋め込みは、堅牢性に基づく評価シナリオの下でもコンテキスト整合性を維持する。
論文参考訳（メタデータ） (2025-02-07T21:32:32Z)
Prediction-Powered E-Values [0.66567375919026]
予測型推論のアイデアをe-valueに適用する。 e-values でフレーム化できるすべての推論手順には予測機能があることを示す。私たちのアプローチはモジュール化されており、既存のアルゴリズムに簡単に統合できます。
論文参考訳（メタデータ） (2025-02-06T18:36:01Z)
Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。悲惨な忘れ物はモデルパフォーマンスを著しく損なう本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2025-01-21T13:33:45Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning [20.48276559928517]
ポアソン確率分布を用いて離散的なポリシーを一元的に制約する素直なアーキテクチャを導入する。本研究では, 単調な確率分布を持つ離散ポリシーが, オンライン強化学習アルゴリズムにおいて, より高速な収束と高い性能をもたらすことを示す実験を行った。
論文参考訳（メタデータ） (2024-08-01T06:06:53Z)
An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。 a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。 ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文参考訳（メタデータ） (2024-05-22T02:32:58Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。 SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-29T19:41:56Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文参考訳（メタデータ） (2022-11-14T21:54:31Z)
Bounded Robustness in Reinforcement Learning via Lexicographic Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文参考訳（メタデータ） (2022-09-30T08:53:18Z)
Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は直立位置での力学系の教師なし安定化を可能にする本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文参考訳（メタデータ） (2020-07-14T21:10:16Z)
Scalable Uncertainty for Computer Vision with Functional Variational Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-06T19:09:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。