論文の概要: Minimax-Bayes Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.10831v1
- Date: Tue, 21 Feb 2023 17:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:17:33.197134
- Title: Minimax-Bayes Reinforcement Learning
- Title(参考訳): Minimax-Bayes強化学習
- Authors: Thomas Kleine Buening, Christos Dimitrakakis, Hannes Eriksson, Divya
Grover, Emilio Jorge
- Abstract要約: 本稿では,様々な強化学習問題に対するミニマックス・ベイズ解について検討する。
最悪のケースは設定に依存するが、対応するミニマックスポリシーは以前の標準(すなわち一様)を前提とするものよりも堅牢である。
- 参考スコア(独自算出の注目度): 2.7456483236562437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the Bayesian decision-theoretic framework offers an elegant solution to
the problem of decision making under uncertainty, one question is how to
appropriately select the prior distribution. One idea is to employ a worst-case
prior. However, this is not as easy to specify in sequential decision making as
in simple statistical estimation problems. This paper studies (sometimes
approximate) minimax-Bayes solutions for various reinforcement learning
problems to gain insights into the properties of the corresponding priors and
policies. We find that while the worst-case prior depends on the setting, the
corresponding minimax policies are more robust than those that assume a
standard (i.e. uniform) prior.
- Abstract(参考訳): ベイズ決定理論フレームワークは不確実性の下での意思決定問題に対するエレガントな解決策を提供するが、ある疑問は、どのように事前分布を適切に選択するかである。
ひとつは、最悪のケースを前に採用することだ。
しかし、これは単純な統計的推定問題のようにシーケンシャルな決定において容易に特定できない。
本稿では,様々な強化学習問題に対するミニマックス・ベイズ解を考察し,それに対応する優先順位と方針の性質について考察する。
最悪のケースは設定に依存するが、対応するミニマックスポリシーは以前の標準(すなわち一様)を前提とするものよりも堅牢である。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Is Offline Decision Making Possible with Only Few Samples? Reliable
Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。
これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文 参考訳(メタデータ) (2024-02-24T03:41:09Z) - Learning Deterministic Surrogates for Robust Convex QCQPs [0.0]
本稿では,ロバストな意思決定損失に関する予測モデルをトレーニングするための二重暗黙層モデルを提案する。
第1の層は問題の決定論的バージョンを解き、第2の層は不確実性集合に対する最悪のケース実現を評価する。
これにより、テスト時に単純な決定論的問題を解くだけで、堅牢な決定につながるモデルのパラメータ化を学ぶことができます。
論文 参考訳(メタデータ) (2023-12-19T16:56:13Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the safe use of prior densities for Bayesian model selection [0.0]
モデル選択における限界確率の事前感度の問題と,その役割について論じる。
また、実際には非常に一般的な選択である非形式的事前の使用についてもコメントします。
そのうちの1つは、太陽系外惑星検出における現実世界の応用である。
論文 参考訳(メタデータ) (2022-06-10T16:17:48Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - A Scalable Two Stage Approach to Computing Optimal Decision Sets [29.946141040012545]
決定木、決定リスト、決定セットといったルールベースのモデルは、伝統的に最も解釈可能なものとみなされる。
最近の研究は、最小サイズの決定セットを生成するために、命題満足度(SAT)の解を用いている。
本稿では,目的とする決定セットの個々のルールを互いに独立して列挙し,ルールのサブセットを選択することで,最小限の決定セットを学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-03T06:51:49Z) - Accelerated Sparse Bayesian Learning via Screening Test and Its
Applications [0.9916217495995309]
線形系では、過度に完備な特徴の辞書を具備した最小の解を求めるのは通常NPハードである。
本稿では,解の空間性を促進するためにパラメータ化を事前に用いた疎ベイズ学習を提案する。
論文 参考訳(メタデータ) (2020-07-08T10:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。