論文の概要: A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem
- arxiv url: http://arxiv.org/abs/2109.09592v1
- Date: Mon, 20 Sep 2021 14:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:02:24.207429
- Title: A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem
- Title(参考訳): 確率的切断ストック問題に対する強化学習アプローチ
- Authors: Anselmo R. Pitombeira-Neto, Arthur H. Fonseca Murta
- Abstract要約: 本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a formulation of the stochastic cutting stock problem as a
discounted infinite-horizon Markov decision process. At each decision epoch,
given current inventory of items, an agent chooses in which patterns to cut
objects in stock in anticipation of the unknown demand. An optimal solution
corresponds to a policy that associates each state with a decision and
minimizes the expected total cost. Since exact algorithms scale exponentially
with the state-space dimension, we develop a heuristic solution approach based
on reinforcement learning. We propose an approximate policy iteration algorithm
in which we apply a linear model to approximate the action-value function of a
policy. Policy evaluation is performed by solving the projected Bellman
equation from a sample of state transitions, decisions and costs obtained by
simulation. Due to the large decision space, policy improvement is performed
via the cross-entropy method. Computational experiments are carried out with
the use of realistic data to illustrate the application of the algorithm.
Heuristic policies obtained with polynomial and Fourier basis functions are
compared with myopic and random policies. Results indicate the possibility of
obtaining policies capable of adequately controlling inventories with an
average cost up to 80% lower than the cost obtained by a myopic policy.
- Abstract(参考訳): 確率的カットストック問題の定式化を無限水平マルコフ決定過程として提案する。
各決定時期において、現在の在庫が与えられた場合、エージェントは、未知の需要を期待して、在庫物を切り分けるパターンを選択する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
正確なアルゴリズムは状態空間次元で指数関数的にスケールするため,強化学習に基づくヒューリスティックな解法を開発した。
本稿では、線形モデルを用いてポリシーのアクション値関数を近似する近似ポリシー反復アルゴリズムを提案する。
予測されたベルマン方程式を、シミュレーションによって得られた状態遷移、決定、コストのサンプルから解いて、政策評価を行う。
大きな意思決定空間のため、クロスエントロピー法による政策改善を行う。
計算実験は、アルゴリズムの応用を説明するために現実的なデータを用いて行われる。
多項式とフーリエ基底関数で得られるヒューリスティックなポリシーは、ミオピックおよびランダムなポリシーと比較される。
その結果, 平均価格で在庫を適切に管理できる政策が, 筋電図法で得られるコストよりも80%も低い可能性が示唆された。
関連論文リスト
- Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Randomized Policy Optimization for Optimal Stopping [0.0]
本稿では,ランダム化線形ポリシーに基づく最適停止手法を提案する。
提案手法は最先端手法を著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2022-03-25T04:33:15Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Approximate Midpoint Policy Iteration for Linear Quadratic Control [1.0312968200748118]
モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
論文 参考訳(メタデータ) (2020-11-28T20:22:10Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。