論文の概要: Self-guided Approximate Linear Programs
- arxiv url: http://arxiv.org/abs/2001.02798v2
- Date: Tue, 12 Oct 2021 04:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:41:03.914404
- Title: Self-guided Approximate Linear Programs
- Title(参考訳): 自己誘導近似線形プログラム
- Authors: Parshan Pakiman, Selvaprabu Nadarajah, Negar Soheili and Qihang Lin
- Abstract要約: 本稿では,安価なサンプリングによって得られたランダム基底関数を組み込んだ近似線形プログラム(ALP)の自己誘導配列を提案する。
これらの望ましい実装と理論的特性は、在庫管理とオプションの価格設定に関する数値的な結果をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 13.11602610569461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate linear programs (ALPs) are well-known models based on value
function approximations (VFAs) to obtain policies and lower bounds on the
optimal policy cost of discounted-cost Markov decision processes (MDPs).
Formulating an ALP requires (i) basis functions, the linear combination of
which defines the VFA, and (ii) a state-relevance distribution, which
determines the relative importance of different states in the ALP objective for
the purpose of minimizing VFA error. Both these choices are typically
heuristic: basis function selection relies on domain knowledge while the
state-relevance distribution is specified using the frequency of states visited
by a heuristic policy. We propose a self-guided sequence of ALPs that embeds
random basis functions obtained via inexpensive sampling and uses the known VFA
from the previous iteration to guide VFA computation in the current iteration.
Self-guided ALPs mitigate the need for domain knowledge during basis function
selection as well as the impact of the initial choice of the state-relevance
distribution, thus significantly reducing the ALP implementation burden. We
establish high probability error bounds on the VFAs from this sequence and show
that a worst-case measure of policy performance is improved. We find that these
favorable implementation and theoretical properties translate to encouraging
numerical results on perishable inventory control and options pricing
applications, where self-guided ALP policies improve upon policies from
problem-specific methods. More broadly, our research takes a meaningful step
toward application-agnostic policies and bounds for MDPs.
- Abstract(参考訳): 近似線形プログラム (alps) は、値関数近似 (vfas) に基づいたよく知られたモデルであり、割引コストマルコフ決定過程 (mdps) の最適政策コストのポリシーと下限を得る。
ALP の定式化には
(i)基本関数、vfaを定義する線形結合、及び
(II)VFAエラーの最小化を目的としたALP目標における異なる状態の相対的重要性を決定する状態関連分布。
基本関数の選択はドメインの知識に依存し、状態関連分布はヒューリスティックなポリシーによって訪問される状態の頻度で指定される。
本稿では,安価サンプリングにより得られるランダム基底関数を組み込んだalpの自己誘導列を提案し,従来からの既知のvfaを用いて,現在の反復におけるvfa計算を導出する。
自己誘導型ALPは、基本関数選択時のドメイン知識の必要性を軽減し、状態関連分布の初期選択の影響を緩和し、ALP実装の負担を大幅に軽減する。
このシーケンスから,VFAに高い確率誤差境界を定め,政策性能の最悪の指標が改善されていることを示す。
これらの望ましい実装と理論的特性は、自己誘導ALPポリシーが問題固有の方法によるポリシーを改善することにより、在庫管理とオプション価格のアプリケーションに対する数値的な結果をもたらすことが判明した。
より広範に、我々の研究は、MDPのアプリケーションに依存しない政策と境界に向けて有意義な一歩を踏み出した。
関連論文リスト
- Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Conditions on Preference Relations that Guarantee the Existence of Optimal Policies [38.17324903156351]
部分的に観測可能な非マルコフ環境におけるLfPF問題を解析するための新しいフレームワークを提案する。
報酬関数が学習目標を表現できない場合でも、意思決定問題は最適ポリシーを持つことができることを示す。
論文 参考訳(メタデータ) (2023-11-03T15:42:12Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。