論文の概要: Information-Theoretic Minimax Regret Bounds for Reinforcement Learning based on Duality
- arxiv url: http://arxiv.org/abs/2410.16013v1
- Date: Mon, 21 Oct 2024 13:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:37.350033
- Title: Information-Theoretic Minimax Regret Bounds for Reinforcement Learning based on Duality
- Title(参考訳): 双対性に基づく強化学習のための情報理論的ミニマックスレグレト境界
- Authors: Raghav Bongole, Amaury Gouverneur, Borja Rodríguez-Gálvez, Tobias J. Oechtering, Mikael Skoglund,
- Abstract要約: エージェントの目的が堅牢なポリシーを見つけることにある未知の環境で行動するエージェントについて検討する。
我々は,異なる環境パラメータに対する最大後悔を最小化するエージェントについて検討し,ミニマックス後悔の研究につながった。
本研究はマルコフ決定過程におけるミニマックス後悔に対する情報理論的境界の導出に焦点を当てる。
- 参考スコア(独自算出の注目度): 33.907054045921306
- License:
- Abstract: We study agents acting in an unknown environment where the agent's goal is to find a robust policy. We consider robust policies as policies that achieve high cumulative rewards for all possible environments. To this end, we consider agents minimizing the maximum regret over different environment parameters, leading to the study of minimax regret. This research focuses on deriving information-theoretic bounds for minimax regret in Markov Decision Processes (MDPs) with a finite time horizon. Building on concepts from supervised learning, such as minimum excess risk (MER) and minimax excess risk, we use recent bounds on the Bayesian regret to derive minimax regret bounds. Specifically, we establish minimax theorems and use bounds on the Bayesian regret to perform minimax regret analysis using these minimax theorems. Our contributions include defining a suitable minimax regret in the context of MDPs, finding information-theoretic bounds for it, and applying these bounds in various scenarios.
- Abstract(参考訳): エージェントの目的が堅牢なポリシーを見つけることにある未知の環境で行動するエージェントについて検討する。
我々は、ロバストな政策を、可能なすべての環境に対して高い累積的な報酬を達成する政策とみなす。
この目的のために,異なる環境パラメータに対する最大後悔を最小限に抑えるエージェントを検討し,ミニマックス後悔の研究に繋がる。
本研究は,マルコフ決定過程(MDP)における最小限の後悔に対する情報理論的境界の導出に焦点をあてる。
最小過大リスク (MER) やミニマックス過大リスク (minimax excess risk) といった教師あり学習の概念を基礎として, ベイズ後悔に対する近年の限界を用いて, ミニマックス過大リスク (minimax excess risk) を導出する。
具体的には、ミニマックス定理を確立し、ベイズ後悔に関する境界を用いて、これらのミニマックス定理を用いてミニマックス後悔解析を行う。
コントリビューションには、MDPの文脈で適切なミニマックスの後悔を定義すること、情報理論的境界を見つけること、そしてこれらの境界を様々なシナリオに適用することが含まれる。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Minimax Linear Regression under the Quantile Risk [31.277788690403522]
量子リスク下での線形回帰におけるミニマックス法の設計問題について検討する。
我々は,最近提案されたmin-max回帰法の変種における最悪のケース量子化リスクに一致する上限を証明した。
論文 参考訳(メタデータ) (2024-06-17T23:24:14Z) - Refining Minimax Regret for Unsupervised Environment Design [15.281908507614512]
我々は,ミニマックス後悔目標の洗練であるレベル・パーフェクトMMRを導入する。
我々は,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して振る舞うことを示す。
また、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。
論文 参考訳(メタデータ) (2024-02-19T16:51:29Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Rate-Distortion Analysis of Minimum Excess Risk in Bayesian Learning [15.544041797200045]
ベイズ学習における最小余剰リスク(MER)は、データから学ぶ際に達成可能な最小損失と、基礎となるパラメータ$W$が観測された場合に達成できる最小損失との差として定義される。
我々は、これらの上界と下界の差に関する情報理論的境界を導出し、それらがMERに対して秩序的に厳密なレートを提供できることを示す。
論文 参考訳(メタデータ) (2021-05-10T08:14:10Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - On Uninformative Optimal Policies in Adaptive LQR with Unknown B-Matrix [7.507288369705302]
適応線形擬似レギュレータ(LQR)の局所最小誤差下限
我々は、アフィン的にパラメータ化された$B$-行列と既知の$A$-行列を考える。
パラメトリゼーションが非形式的最適ポリシーを誘導するならば、対数的後悔は不可能である。
論文 参考訳(メタデータ) (2020-11-18T13:50:31Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。