Fugu-MT 論文翻訳(概要): Minimax-Bayes Reinforcement Learning

論文の概要: Minimax-Bayes Reinforcement Learning

arxiv url: http://arxiv.org/abs/2302.10831v1
Date: Tue, 21 Feb 2023 17:10:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-22 14:17:33.197134
Title: Minimax-Bayes Reinforcement Learning
Title（参考訳）: Minimax-Bayes強化学習
Authors: Thomas Kleine Buening, Christos Dimitrakakis, Hannes Eriksson, Divya Grover, Emilio Jorge
Abstract要約: 本稿では,様々な強化学習問題に対するミニマックス・ベイズ解について検討する。最悪のケースは設定に依存するが、対応するミニマックスポリシーは以前の標準(すなわち一様)を前提とするものよりも堅牢である。
参考スコア（独自算出の注目度）: 2.7456483236562437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the Bayesian decision-theoretic framework offers an elegant solution to the problem of decision making under uncertainty, one question is how to appropriately select the prior distribution. One idea is to employ a worst-case prior. However, this is not as easy to specify in sequential decision making as in simple statistical estimation problems. This paper studies (sometimes approximate) minimax-Bayes solutions for various reinforcement learning problems to gain insights into the properties of the corresponding priors and policies. We find that while the worst-case prior depends on the setting, the corresponding minimax policies are more robust than those that assume a standard (i.e. uniform) prior.
Abstract（参考訳）: ベイズ決定理論フレームワークは不確実性の下での意思決定問題に対するエレガントな解決策を提供するが、ある疑問は、どのように事前分布を適切に選択するかである。ひとつは、最悪のケースを前に採用することだ。しかし、これは単純な統計的推定問題のようにシーケンシャルな決定において容易に特定できない。本稿では,様々な強化学習問題に対するミニマックス・ベイズ解を考察し,それに対応する優先順位と方針の性質について考察する。最悪のケースは設定に依存するが、対応するミニマックスポリシーは以前の標準(すなわち一様)を前提とするものよりも堅牢である。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Sufficient Decision Proxies for Decision-Focused Learning [2.7143637678944454]
決定に焦点を当てた学習は、予測精度ではなく、決定品質が最大化されるような予測モデルを学ぶことを目的としている。本稿では,いずれの仮定を用いても正当性を示す問題特性を初めて検討する。本稿では,連続変数および離散変数の問題に対する実験における提案手法の有効性と,目的関数および制約における不確実性について述べる。
論文参考訳（メタデータ） (2025-05-06T20:10:17Z)
Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文参考訳（メタデータ） (2024-11-15T02:46:55Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文参考訳（メタデータ） (2024-02-24T03:41:09Z)
Learning Deterministic Surrogates for Robust Convex QCQPs [0.0]
本稿では,ロバストな意思決定損失に関する予測モデルをトレーニングするための二重暗黙層モデルを提案する。第1の層は問題の決定論的バージョンを解き、第2の層は不確実性集合に対する最悪のケース実現を評価する。これにより、テスト時に単純な決定論的問題を解くだけで、堅牢な決定につながるモデルのパラメータ化を学ぶことができます。
論文参考訳（メタデータ） (2023-12-19T16:56:13Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Online POMDP Planning with Anytime Deterministic Optimality Guarantees [9.444784653236157]
近似解と最適解の間の離散POMDPに対する決定論的関係を導出する。我々の導出は、新しいアルゴリズムセットの道を提供し、既存のアルゴリズムにアタッチできることを示します。
論文参考訳（メタデータ） (2023-10-03T04:40:38Z)
On the safe use of prior densities for Bayesian model selection [0.0]
モデル選択における限界確率の事前感度の問題と,その役割について論じる。また、実際には非常に一般的な選択である非形式的事前の使用についてもコメントします。そのうちの1つは、太陽系外惑星検出における現実世界の応用である。
論文参考訳（メタデータ） (2022-06-10T16:17:48Z)
Modularity in Reinforcement Learning via Algorithmic Independence in Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文参考訳（メタデータ） (2021-06-28T21:29:13Z)
A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文参考訳（メタデータ） (2021-06-14T05:47:41Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
A Scalable Two Stage Approach to Computing Optimal Decision Sets [29.946141040012545]
決定木、決定リスト、決定セットといったルールベースのモデルは、伝統的に最も解釈可能なものとみなされる。最近の研究は、最小サイズの決定セットを生成するために、命題満足度(SAT)の解を用いている。本稿では,目的とする決定セットの個々のルールを互いに独立して列挙し,ルールのサブセットを選択することで,最小限の決定セットを学習するための新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-03T06:51:49Z)
Accelerated Sparse Bayesian Learning via Screening Test and Its Applications [0.9916217495995309]
線形系では、過度に完備な特徴の辞書を具備した最小の解を求めるのは通常NPハードである。本稿では,解の空間性を促進するためにパラメータ化を事前に用いた疎ベイズ学習を提案する。
論文参考訳（メタデータ） (2020-07-08T10:21:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。