論文の概要: Optimistic Regret Bounds for Online Learning in Adversarial Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2405.02188v1
- Date: Fri, 3 May 2024 15:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 12:26:23.795599
- Title: Optimistic Regret Bounds for Online Learning in Adversarial Markov Decision Processes
- Title(参考訳): 逆マルコフ決定過程におけるオンライン学習のための最適回帰境界
- Authors: Sang Bin Moon, Abolfazl Hashemi,
- Abstract要約: コスト予測器のセットを活用して後悔を最小限に抑えることを目的とした,新たなAMDPの導入と研究を行う。
提案手法は,コスト予測器の推算力で優雅に劣化する残差である,確率の高いサブリニアな懐疑的後悔を実現するための新しいポリシー探索手法を開発する。
- 参考スコア(独自算出の注目度): 5.116582735311639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Adversarial Markov Decision Process (AMDP) is a learning framework that deals with unknown and varying tasks in decision-making applications like robotics and recommendation systems. A major limitation of the AMDP formalism, however, is pessimistic regret analysis results in the sense that although the cost function can change from one episode to the next, the evolution in many settings is not adversarial. To address this, we introduce and study a new variant of AMDP, which aims to minimize regret while utilizing a set of cost predictors. For this setting, we develop a new policy search method that achieves a sublinear optimistic regret with high probability, that is a regret bound which gracefully degrades with the estimation power of the cost predictors. Establishing such optimistic regret bounds is nontrivial given that (i) as we demonstrate, the existing importance-weighted cost estimators cannot establish optimistic bounds, and (ii) the feedback model of AMDP is different (and more realistic) than the existing optimistic online learning works. Our result, in particular, hinges upon developing a novel optimistically biased cost estimator that leverages cost predictors and enables a high-probability regret analysis without imposing restrictive assumptions. We further discuss practical extensions of the proposed scheme and demonstrate its efficacy numerically.
- Abstract(参考訳): Adversarial Markov Decision Process (AMDP)は、ロボット工学やレコメンデーションシステムといった意思決定アプリケーションにおいて、未知のさまざまなタスクを扱う学習フレームワークである。
しかし、AMDPフォーマリズムの大きな制限は、コスト関数が1つのエピソードから次のエピソードに変化するとしても、多くの設定における進化は逆境ではない、という悲観的な後悔分析である。
そこで本稿では,コスト予測器のセットを活用して,後悔を最小限に抑えることを目的とした,新たなAMDPの導入と研究を行う。
そこで,本稿では,コスト予測器の推定能力に則って優雅に劣化するような,未熟な後悔を高い確率で実現した新しいポリシー探索手法を提案する。
そのような楽観的な後悔の限界を確立することは、それを考えると自明ではない
一 上述の通り、既存の重み付けコスト推定器は楽観的な限界を定めず、
(II)AMDPのフィードバックモデルは、既存の楽観的なオンライン学習作業とは異なる(そしてより現実的な)ものである。
この結果は,特に,コスト予測を生かし,制約的仮定を課さずに,高い確率的後悔分析を可能にする,楽観的に偏りのあるコスト推定器の開発に寄与する。
さらに,提案手法の実践的拡張について考察し,その有効性を数値的に実証する。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Learning-Augmented Robust Algorithmic Recourse [7.217269034256654]
アルゴリズムのリコースは、将来望ましい結果を達成するために、最小限のコスト改善を提案する。
機械学習モデルは時間とともに更新されることが多く、それによってリコースが無効になる可能性がある。
本稿では,この問題に対する新しいアルゴリズムを提案し,ロバスト性・一貫性のトレードオフについて検討し,予測精度が性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-10-02T14:15:32Z) - Asymptotically Optimal Regret for Black-Box Predict-then-Optimize [7.412445894287709]
我々は,特別な構造を欠いた新たなブラックボックス予測最適化問題と,その行動から得られる報酬のみを観察する方法について検討した。
本稿では,経験的ソフトレグレット(ESR, Empirical Soft Regret)と呼ばれる新しい損失関数を提案する。
また、私たちのアプローチは、ニュースレコメンデーションやパーソナライズされた医療における現実の意思決定問題において、最先端のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-12T04:46:23Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Robust Losses for Decision-Focused Learning [2.9652474178611405]
決定にフォーカスした学習は、最適下決定を行うことで後悔を最小限に抑えるために予測モデルを訓練することを目的としている。
経験的最適決定は期待された最適決定と大きく異なるため、経験的後悔は非効果的な代理となり得る。
より強固に予測された後悔を近似する3つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-06T15:45:10Z) - A Note on Task-Aware Loss via Reweighing Prediction Loss by
Decision-Regret [11.57423546614283]
我々は予測最適化の意思決定対応版を提案する。
コストの(非重みのない)パイロット推定器が犯した決定の後悔による予測誤差を再検討する。
このアプローチは"予測を最適化する"フレームワークよりも改善する可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-09T18:59:35Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。