論文の概要: Risk-Sensitive and Robust Model-Based Reinforcement Learning and
Planning
- arxiv url: http://arxiv.org/abs/2304.00573v1
- Date: Sun, 2 Apr 2023 16:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:21:23.218025
- Title: Risk-Sensitive and Robust Model-Based Reinforcement Learning and
Planning
- Title(参考訳): リスク感性とロバストモデルに基づく強化学習と計画
- Authors: Marc Rigter
- Abstract要約: 我々は、逐次意思決定における計画と強化学習のアプローチに対処する。
多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。
私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
- 参考スコア(独自算出の注目度): 2.627046865670577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequential decision-making problems that are currently automated, such
as those in manufacturing or recommender systems, operate in an environment
where there is either little uncertainty, or zero risk of catastrophe. As
companies and researchers attempt to deploy autonomous systems in less
constrained environments, it is increasingly important that we endow sequential
decision-making algorithms with the ability to reason about uncertainty and
risk.
In this thesis, we will address both planning and reinforcement learning (RL)
approaches to sequential decision-making. In the planning setting, it is
assumed that a model of the environment is provided, and a policy is optimised
within that model. Reinforcement learning relies upon extensive random
exploration, and therefore usually requires a simulator in which to perform
training. In many real-world domains, it is impossible to construct a perfectly
accurate model or simulator. Therefore, the performance of any policy is
inevitably uncertain due to the incomplete knowledge about the environment.
Furthermore, in stochastic domains, the outcome of any given run is also
uncertain due to the inherent randomness of the environment. These two sources
of uncertainty are usually classified as epistemic, and aleatoric uncertainty,
respectively. The over-arching goal of this thesis is to contribute to
developing algorithms that mitigate both sources of uncertainty in sequential
decision-making problems.
We make a number of contributions towards this goal, with a focus on
model-based algorithms...
- Abstract(参考訳): 製造システムやレコメンデーションシステムなど、現在自動化されている一連の意思決定問題の多くは、不確実性がほとんどないか、あるいは災害のリスクがゼロである環境で動作する。
企業や研究者が制約の少ない環境で自律システムのデプロイを試みる中で、不確実性やリスクを推論できるシーケンシャルな意思決定アルゴリズムを提供することがますます重要になっている。
本論では、逐次意思決定における計画と強化学習(RL)のアプローチについて論じる。
計画設定では、環境のモデルが提供され、そのモデル内でポリシーが最適化されると仮定する。
強化学習は広範囲なランダムな探索に依存しているため、トレーニングを行うためのシミュレータが必要となる。
多くの実世界のドメインでは、完全に正確なモデルやシミュレータを構築することは不可能である。
したがって、環境に関する不完全な知識のため、いかなる政策も必然的に不確実である。
さらに、確率的領域では、環境固有のランダム性のため、任意のランの結果も不確かである。
これら2つの不確実性源は、それぞれてんかんとてんかん性不確実性に分類される。
この論文の全体的な目標は、逐次的意思決定問題における不確実性の原因を両立させるアルゴリズムの開発に貢献することである。
私たちは、モデルベースのアルゴリズムに焦点を当てて、この目標に多くの貢献をしています。
関連論文リスト
- Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions [80.34972679938483]
不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。
私たちのアルゴリズムが生み出す決定は、リスクが低いという証明可能な統計的保証があるという意味では安全です。
実験は、人間のまわりのロボットの動き計画、自動株式取引、ロボット製造において、我々のアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-09T17:59:30Z) - The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in Deep Learning [71.14237199051276]
経験的リスクを最小限に抑えるため,古典的な分布に依存しないフレームワークとアルゴリズムを検討する。
理想的な安定かつ正確なニューラルネットワークの計算と検証が極めて難しいタスク群が存在することを示す。
論文 参考訳(メタデータ) (2023-09-13T16:33:27Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning [17.940958199767234]
適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T13:39:58Z) - Policy Learning for Robust Markov Decision Process with a Mismatched
Generative Model [42.28001762749647]
医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。
本稿では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。
我々のゴールは、さらなる技術的困難をもたらす、摂動テスト環境に対するほぼ最適のロバストなポリシーを特定することです。
論文 参考訳(メタデータ) (2022-03-13T06:37:25Z) - Enabling risk-aware Reinforcement Learning for medical interventions
through uncertainty decomposition [9.208828373290487]
複雑な制御と意思決定の問題に対処するためのツールとして強化学習(RL)が登場している。
エージェントが学習した明らかに最適なポリシーと、実際の展開の間のギャップを埋めることは、しばしば困難である。
本稿では,各不確実性のネット効果を分解して不確かさを再現するために,分布的アプローチ (UA-DQN) を再キャストする方法を提案する。
論文 参考訳(メタデータ) (2021-09-16T09:36:53Z) - Multi Agent System for Machine Learning Under Uncertainty in Cyber
Physical Manufacturing System [78.60415450507706]
近年の予測機械学習の進歩は、製造における様々なユースケースに応用されている。
ほとんどの研究は、それに関連する不確実性に対処することなく予測精度を最大化することに焦点を当てた。
本稿では,機械学習における不確実性の原因を特定し,不確実性下での機械学習システムの成功基準を確立する。
論文 参考訳(メタデータ) (2021-07-28T10:28:05Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。