論文の概要: Data-Driven Estimation of Conditional Expectations, Application to Optimal Stopping and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.13189v1
- Date: Thu, 18 Jul 2024 05:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:42:04.729520
- Title: Data-Driven Estimation of Conditional Expectations, Application to Optimal Stopping and Reinforcement Learning
- Title(参考訳): データ駆動による条件付き期待値の推定と最適停止・強化学習への応用
- Authors: George V. Moustakides,
- Abstract要約: 所望の条件予測を直接推定する,単純で純粋にデータ駆動の手法を提案する。
条件付き予測は、対応する最適解を用いた多くの最適化問題の記述に現れるため、データ駆動方式も適用範囲を広げる。
強化学習における最適停止・最適行動政策に適用して方法論を検証した。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When the underlying conditional density is known, conditional expectations can be computed analytically or numerically. When, however, such knowledge is not available and instead we are given a collection of training data, the goal of this work is to propose simple and purely data-driven means for estimating directly the desired conditional expectation. Because conditional expectations appear in the description of a number of stochastic optimization problems with the corresponding optimal solution satisfying a system of nonlinear equations, we extend our data-driven method to cover such cases as well. We test our methodology by applying it to Optimal Stopping and Optimal Action Policy in Reinforcement Learning.
- Abstract(参考訳): 基礎となる条件密度が分かっている場合、条件予測は解析的または数値的に計算できる。
しかし、そのような知識が得られず、代わりにトレーニングデータの集合が与えられる場合、本研究の目的は、望まれる条件予測を直接推定する単純で純粋にデータ駆動の手段を提案することである。
非線形方程式系を満足する最適解を用いた確率的最適化問題の記述に条件付き期待が現れるため,データ駆動法も適用範囲を広げる。
強化学習における最適停止・最適行動政策に適用して方法論を検証した。
関連論文リスト
- Forecasting Outside the Box: Application-Driven Optimal Pointwise Forecasts for Stochastic Optimization [0.0]
本稿では,未知の状況の最適近似を導出する統合学習と最適化手法を提案する。
文献の在庫問題と実データを用いた自転車共有問題から得られた数値結果から,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-05T21:54:50Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - Learning Optimal Prescriptive Trees from Observational Data [7.215903549622416]
混合整数最適化(MIO)技術を用いて最適規範木を学習する手法を提案する。
既存の文献とは対照的に、我々の手法はデータをランダム化する必要がなく、2)学習木に厳密な仮定を課さず、3)ドメイン固有の制約をモデル化する能力を持っている。
論文 参考訳(メタデータ) (2021-08-31T05:38:36Z) - Debiasing In-Sample Policy Performance for Small-Data, Large-Scale
Optimization [4.554894288663752]
本稿では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定法を提案する。
クロスバリデーションとは異なり、我々の手法はテストセットのデータを犠牲にするのを避ける。
我々は,小規模・大規模システムにおける推定器の性能を実証する。
論文 参考訳(メタデータ) (2021-07-26T19:00:51Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Interior Point Solving for LP-based prediction+optimisation [14.028706088791473]
線形プログラミングのインテリア・ポイント・ソルバで広く使われているような、より原理化された対数障壁項の使用について検討する。
我々の手法は、Willerらの最先端QPTL(Quadratic Programming Task Los)とElmachtoubとGrigasのSPOアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-10-26T23:05:21Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。