論文の概要: Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion
- arxiv url: http://arxiv.org/abs/2310.16546v3
- Date: Tue, 5 Dec 2023 05:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:23:20.843936
- Title: Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion
- Title(参考訳): 最適化の落とし穴:リスク基準のランダム化による分散強化学習
- Authors: Taehyun Cho, Seungyub Han, Heesoo Lee, Kyungjae Lee, Jungwoo Lee
- Abstract要約: 本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
- 参考スコア(独自算出の注目度): 9.35556128467037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Distributional reinforcement learning algorithms have attempted to utilize
estimated uncertainty for exploration, such as optimism in the face of
uncertainty. However, using the estimated variance for optimistic exploration
may cause biased data collection and hinder convergence or performance. In this
paper, we present a novel distributional reinforcement learning algorithm that
selects actions by randomizing risk criterion to avoid one-sided tendency on
risk. We provide a perturbed distributional Bellman optimality operator by
distorting the risk measure and prove the convergence and optimality of the
proposed method with the weaker contraction property. Our theoretical results
support that the proposed method does not fall into biased exploration and is
guaranteed to converge to an optimal return. Finally, we empirically show that
our method outperforms other existing distribution-based algorithms in various
environments including Atari 55 games.
- Abstract(参考訳): 分布強化学習アルゴリズムは、不確実性に直面した楽観主義などの推定不確実性を探索に利用しようと試みている。
しかし、楽観的な探索に推定分散を使うことは、偏りのあるデータ収集と収束や性能の妨げとなる可能性がある。
本稿では,リスク基準をランダム化することにより,リスクの一方的傾向を回避する行動選択を行う分布強化学習アルゴリズムを提案する。
リスク尺度を歪ませ、より弱い収縮特性で提案手法の収束性と最適性を証明し、摂動分布のベルマン最適性演算子を提供する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
最後に,Atari 55 ゲームを含む様々な環境において,本手法が既存の分散アルゴリズムよりも優れていることを示す。
関連論文リスト
- Uncertainty Quantification via Stable Distribution Propagation [60.065272548502]
本稿では,ニューラルネットワークによる安定確率分布の伝播手法を提案する。
提案手法は局所線形化に基づいており,ReLU非線型性に対する全変動距離の近似値として最適であることを示す。
論文 参考訳(メタデータ) (2024-02-13T09:40:19Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Stochastic Optimization for Spectral Risk Measures [5.55979411072702]
スペクトルリスク目標により、学習システムは(経験的リスク最小化のように)平均ケースパフォーマンスを最適化することと、タスクにおける最悪のケースパフォーマンスとを補間することができる。
本研究では,これらの量の偏差を特徴付けるアルゴリズムを開発し,次亜次推定の偏りや目的の非滑らかさといった課題に対処する。
論文 参考訳(メタデータ) (2022-12-10T00:03:12Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - A Stochastic Subgradient Method for Distributionally Robust Non-Convex
Learning [2.007262412327553]
堅牢性は、基礎となるデータ分布の不確実性に関するものです。
本手法は摂動条件を満たすことに収束することを示す。
また、実際のデータセット上でのアルゴリズムの性能についても解説する。
論文 参考訳(メタデータ) (2020-06-08T18:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。