論文の概要: Exploitation vs Caution: Risk-sensitive Policies for Offline Learning
- arxiv url: http://arxiv.org/abs/2105.13431v1
- Date: Thu, 27 May 2021 20:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:48:16.945538
- Title: Exploitation vs Caution: Risk-sensitive Policies for Offline Learning
- Title(参考訳): 爆発対注意:オフライン学習におけるリスク感応的政策
- Authors: Giorgio Angelotti, Nicolas Drougard, Caroline Ponzoni Carvalho Chanel
- Abstract要約: ベイジアンMDPの準最適解を求めると、オフライン環境で動作している現在のベースラインに関して、より良い性能が得られる可能性があることを示す。
リスクに敏感なベイズ MDP を解決するためのポリシーを自動的に選択するアルゴリズムである Exploitation vs Caution (EvC) を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline model learning for planning is a branch of machine learning that
trains agents to perform actions in an unknown environment using a fixed batch
of previously collected experiences. The limited size of the data set hinders
the estimate of the Value function of the relative Markov Decision Process
(MDP), bounding the performance of the obtained policy in the real world. In
this context, recent works showed that planning with a discount factor lower
than the one used during the evaluation phase yields more performing policies.
However, the optimal discount factor is finally chosen by cross-validation. Our
aim is to show that looking for a sub-optimal solution of a Bayesian MDP might
lead to better performances with respect to the current baselines that work in
the offline setting. Hence, we propose Exploitation vs Caution (EvC), an
algorithm that automatically selects the policy that solves a Risk-sensitive
Bayesian MDP in a set of policies obtained by solving several MDPs
characterized by different discount factors and transition dynamics. On one
hand, the Bayesian formalism elegantly includes model uncertainty and on
another hand the introduction of a risk-sensitive utility function guarantees
robustness. We evaluated the proposed approach in different discrete simple
environments offering a fair variety of MDP classes. We also compared the
obtained results with state-of-the-art offline learning for planning baselines
such as MOPO and MOReL. In the tested scenarios EvC is more robust than the
said approaches suggesting that sub-optimally solving an Offline Risk-sensitive
Bayesian MDP (ORBMDP) could define a sound framework for planning under model
uncertainty.
- Abstract(参考訳): 計画のためのオフラインモデル学習は、エージェントが以前に収集された経験の固定バッチを使用して未知の環境でアクションを実行するように訓練する機械学習の分野である。
データセットの限られたサイズは、相対マルコフ決定プロセス(MDP)の値関数の推定を妨げ、実世界で得られたポリシーのパフォーマンスを制限します。
この文脈において、近年の研究では、評価フェーズで使用するものよりも割引率の低いプランニングが、よりパフォーマンスの高いポリシーをもたらすことが示されている。
しかし、最適割引係数はクロスバリデーションによって最終的に選択される。
当社の目標は,ベイズmdpの下位最適化ソリューションを探すことで,オフライン環境で動作している現在のベースラインに対して,パフォーマンスが向上する可能性を示すことです。
そこで我々は,リスクに敏感なベイズ型MDPを,異なる割引係数と遷移ダイナミクスを特徴とする複数のMDPを解くことで得られる一連のポリシーで自動的に選択するアルゴリズムであるExpploitation vs Caution (EvC)を提案する。
一方、ベイズ形式はモデルの不確かさをエレガントに含み、一方、リスクに敏感なユーティリティ関数の導入は堅牢性を保証する。
提案手法を多種多様なMDPクラスを提供する離散的単純環境下で評価した。
また,MOPO や MOReL などの計画ベースラインに対する最先端のオフライン学習と比較した。
テストシナリオでは、EvCは、モデル不確実性の下で計画するための健全な枠組みを定義するために、オフラインリスクに敏感なベイズ MDP (ORBMDP) をサブ最適に解くことを示唆するアプローチよりも堅牢である。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。