論文の概要: Product Segmentation Newsvendor Problems: A Robust Learning Approach
- arxiv url: http://arxiv.org/abs/2207.03801v1
- Date: Fri, 8 Jul 2022 10:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 10:05:59.350785
- Title: Product Segmentation Newsvendor Problems: A Robust Learning Approach
- Title(参考訳): プロダクトセグメンテーションのニューズベンダー問題:ロバストな学習アプローチ
- Authors: Xiaoli Yan, Hui Yu, Jiawen Li, Frank Youhua Chen
- Abstract要約: 商品セグメンテーションニューズベンダー問題は、ニューズベンダー問題の新たな変種である。
本稿では、ロバストな政策の魅力を高めるために、ロバストな学習という新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 6.346881818701668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and analyze a product segmentation newsvendor problem, which
generalizes the phenomenon of segmentation sales of a class of perishable
items. The product segmentation newsvendor problem is a new variant of the
newsvendor problem, reflecting that sellers maximize profits by determining the
inventory of the whole item in the context of uncertain demand for sub-items.
We derive the closed-form robust ordering decision by assuming that the means
and covariance matrix of stochastic demand are available but not the
distributions. However, robust approaches that always trade-off in the
worst-case demand scenario face a concern in solution conservatism; thus, the
traditional robust schemes offer unsatisfactory. In this paper, we integrate
robust and deep reinforcement learning (DRL) techniques and propose a new
paradigm termed robust learning to increase the attractiveness of robust
policies. Notably, we take the robust decision as human domain knowledge and
implement it into the training process of DRL by designing a full-process
human-machine collaborative mechanism of teaching experience, normative
decision, and regularization return. Simulation results confirm that our
approach effectively improves robust performance and can generalize to various
problems that require robust but less conservative solutions. Simultaneously,
fewer training episodes, increased training stability, and interpretability of
behavior may have the opportunity to facilitate the deployment of DRL
algorithms in operational practice. Furthermore, the successful attempt of
RLDQN to solve the 1000-dimensional demand scenarios reveals that the algorithm
provides a path to solve complex operational problems through human-machine
collaboration and may have potential significance for solving other complex
operational management problems.
- Abstract(参考訳): 本研究では,商品セグメンテーション・ニューズベンドル問題を提案し分析し,商品のセグメンテーション販売の現象を一般化する。
商品セグメンテーションのニューズベンドル問題はニューズベンドル問題の新しい変種であり、販売者はサブアイテムに対する不確定な需要の文脈で商品全体の在庫を決定することで利益を最大化することを反映している。
確率的需要の手段と共分散行列が利用可能であるが分布ではないことを仮定して、閉形式のロバスト順序決定を導出する。
しかし、最悪の場合の需要シナリオで常にトレードオフされる堅牢なアプローチは、ソリューション保守主義の懸念に直面している。
本稿では,ロバストおよび深層強化学習(drl)手法を統合し,ロバスト学習と呼ばれる新しいパラダイムを提案し,ロバストポリシの魅力を高める。
特に,人間ドメイン知識としてのロバストな決定を,教示経験,規範的決定,正規化回帰のフルプロセスなヒューマンマシン協調機構を設計し,drlのトレーニングプロセスに実装する。
シミュレーションの結果,本手法はロバストな性能を効果的に改善し,ロバストだが保守的でない様々な問題に一般化できることが確認された。
同時に、トレーニングエピソードが減り、トレーニングの安定性が向上し、行動の解釈可能性も向上し、DRLアルゴリズムの運用実践を促進できる可能性がある。
さらに、1000次元の需要シナリオを解こうとするrldqnの成功は、このアルゴリズムが人間と機械の協調によって複雑な操作問題を解決する経路を提供し、他の複雑な操作管理問題を解決する上で潜在的に有益であることを示している。
関連論文リスト
- Combinatorial Optimization with Policy Adaptation using Latent Space
Search [46.02102888864839]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。
我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T12:24:54Z) - Accelerate Presolve in Large-Scale Linear Programming via Reinforcement
Learning [92.31528918811007]
本稿では,P1)-(P3) を同時に扱うための簡易かつ効率的な強化学習フレームワーク,すなわち,事前解決のための強化学習(RL4Presolve)を提案する。
2つの解法と8つのベンチマーク(実世界と合成)の実験により、RL4Presolveは大規模LPの解法効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-10-18T09:51:59Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Deep Reinforcement Learning Approach for Trading Automation in The Stock
Market [0.0]
本稿では,Deep Reinforcement Learning (DRL)アルゴリズムを用いて,株式市場における収益性取引を生成するモデルを提案する。
我々は、市場が課す制約を考慮して、部分的に観測されたマルコフ決定プロセス(POMDP)モデルとして取引問題を定式化する。
次に, Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムを用いて, 2.68 Sharpe Ratio を未知のデータセットに報告し, 定式化した POMDP 問題を解く。
論文 参考訳(メタデータ) (2022-07-05T11:34:29Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Assured RL: Reinforcement Learning with Almost Sure Constraints [0.0]
我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。
バリアベースの分解を満たす値とアクション値関数を定義する。
我々は,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。
論文 参考訳(メタデータ) (2020-12-24T00:29:28Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning [2.4565068569913384]
本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
論文 参考訳(メタデータ) (2020-06-16T20:40:41Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。