論文の概要: Bayesian Risk-Averse Q-Learning with Streaming Observations
- arxiv url: http://arxiv.org/abs/2305.11300v1
- Date: Thu, 18 May 2023 20:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:19:18.404700
- Title: Bayesian Risk-Averse Q-Learning with Streaming Observations
- Title(参考訳): ストリーミング観測によるベイズリスクの逆Q-Learning
- Authors: Yuhao Wang, Enlu Zhou
- Abstract要約: 我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。
エージェントの制御外にある実環境からの観測が定期的に到着する。
実環境からのストリーミング観測でBRMDPを解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 7.330349128557128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a robust reinforcement learning problem, where a learning agent
learns from a simulated training environment. To account for the model
mis-specification between this training environment and the real environment
due to lack of data, we adopt a formulation of Bayesian risk MDP (BRMDP) with
infinite horizon, which uses Bayesian posterior to estimate the transition
model and impose a risk functional to account for the model uncertainty.
Observations from the real environment that is out of the agent's control
arrive periodically and are utilized by the agent to update the Bayesian
posterior to reduce model uncertainty. We theoretically demonstrate that BRMDP
balances the trade-off between robustness and conservativeness, and we further
develop a multi-stage Bayesian risk-averse Q-learning algorithm to solve BRMDP
with streaming observations from real environment. The proposed algorithm
learns a risk-averse yet optimal policy that depends on the availability of
real-world observations. We provide a theoretical guarantee of strong
convergence for the proposed algorithm.
- Abstract(参考訳): 我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。
データ不足によるトレーニング環境と実環境とのモデル不特定さを考慮し,無限地平線を持つベイズリスクmdp(brmdp)の定式化を行い,移行モデルの推定にベイズ後方法を用い,モデル不確実性を考慮したリスク関数を課す。
エージェントの制御外にある実環境からの観測が定期的に到着し、エージェントがベイズの後部を更新してモデルの不確実性を減少させる。
理論的には、BRMDPはロバスト性と保守性の間のトレードオフのバランスを保ち、BRMDPを実環境からのストリーミング観測で解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムをさらに発展させる。
提案手法は,実世界観測の可利用性に依存するリスク回避かつ最適方針を学習する。
提案するアルゴリズムに対して強い収束の理論的保証を提供する。
関連論文リスト
- Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based
Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。
実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-09-11T16:10:58Z) - Model-Assisted Probabilistic Safe Adaptive Control With Meta-Bayesian
Learning [33.75998206184497]
メタラーニング,ベイズモデル,制御バリア関数(CBF)メソッドを統合した新しい適応型安全制御フレームワークを開発した。
具体的には、CBF法の助けを借りて、統一適応ベイズ線形回帰モデルにより固有不確かさと外部不確かさを学習する。
新しい制御タスクのために,いくつかのサンプルを用いてメタ学習モデルを洗練し,安全制御を確保するためにCBF制約に悲観的信頼境界を導入する。
論文 参考訳(メタデータ) (2023-07-03T08:16:01Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Policy Learning for Robust Markov Decision Process with a Mismatched
Generative Model [42.28001762749647]
医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。
本稿では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。
我々のゴールは、さらなる技術的困難をもたらす、摂動テスト環境に対するほぼ最適のロバストなポリシーを特定することです。
論文 参考訳(メタデータ) (2022-03-13T06:37:25Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Learning Interpretable Deep State Space Model for Probabilistic Time
Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。
本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。
実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文 参考訳(メタデータ) (2021-01-31T06:49:33Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。