論文の概要: Product Segmentation Newsvendor Problems: A Robust Learning Approach
- arxiv url: http://arxiv.org/abs/2207.03801v1
- Date: Fri, 8 Jul 2022 10:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 10:05:59.350785
- Title: Product Segmentation Newsvendor Problems: A Robust Learning Approach
- Title(参考訳): プロダクトセグメンテーションのニューズベンダー問題:ロバストな学習アプローチ
- Authors: Xiaoli Yan, Hui Yu, Jiawen Li, Frank Youhua Chen
- Abstract要約: 商品セグメンテーションニューズベンダー問題は、ニューズベンダー問題の新たな変種である。
本稿では、ロバストな政策の魅力を高めるために、ロバストな学習という新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 6.346881818701668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose and analyze a product segmentation newsvendor problem, which
generalizes the phenomenon of segmentation sales of a class of perishable
items. The product segmentation newsvendor problem is a new variant of the
newsvendor problem, reflecting that sellers maximize profits by determining the
inventory of the whole item in the context of uncertain demand for sub-items.
We derive the closed-form robust ordering decision by assuming that the means
and covariance matrix of stochastic demand are available but not the
distributions. However, robust approaches that always trade-off in the
worst-case demand scenario face a concern in solution conservatism; thus, the
traditional robust schemes offer unsatisfactory. In this paper, we integrate
robust and deep reinforcement learning (DRL) techniques and propose a new
paradigm termed robust learning to increase the attractiveness of robust
policies. Notably, we take the robust decision as human domain knowledge and
implement it into the training process of DRL by designing a full-process
human-machine collaborative mechanism of teaching experience, normative
decision, and regularization return. Simulation results confirm that our
approach effectively improves robust performance and can generalize to various
problems that require robust but less conservative solutions. Simultaneously,
fewer training episodes, increased training stability, and interpretability of
behavior may have the opportunity to facilitate the deployment of DRL
algorithms in operational practice. Furthermore, the successful attempt of
RLDQN to solve the 1000-dimensional demand scenarios reveals that the algorithm
provides a path to solve complex operational problems through human-machine
collaboration and may have potential significance for solving other complex
operational management problems.
- Abstract(参考訳): 本研究では,商品セグメンテーション・ニューズベンドル問題を提案し分析し,商品のセグメンテーション販売の現象を一般化する。
商品セグメンテーションのニューズベンドル問題はニューズベンドル問題の新しい変種であり、販売者はサブアイテムに対する不確定な需要の文脈で商品全体の在庫を決定することで利益を最大化することを反映している。
確率的需要の手段と共分散行列が利用可能であるが分布ではないことを仮定して、閉形式のロバスト順序決定を導出する。
しかし、最悪の場合の需要シナリオで常にトレードオフされる堅牢なアプローチは、ソリューション保守主義の懸念に直面している。
本稿では,ロバストおよび深層強化学習(drl)手法を統合し,ロバスト学習と呼ばれる新しいパラダイムを提案し,ロバストポリシの魅力を高める。
特に,人間ドメイン知識としてのロバストな決定を,教示経験,規範的決定,正規化回帰のフルプロセスなヒューマンマシン協調機構を設計し,drlのトレーニングプロセスに実装する。
シミュレーションの結果,本手法はロバストな性能を効果的に改善し,ロバストだが保守的でない様々な問題に一般化できることが確認された。
同時に、トレーニングエピソードが減り、トレーニングの安定性が向上し、行動の解釈可能性も向上し、DRLアルゴリズムの運用実践を促進できる可能性がある。
さらに、1000次元の需要シナリオを解こうとするrldqnの成功は、このアルゴリズムが人間と機械の協調によって複雑な操作問題を解決する経路を提供し、他の複雑な操作管理問題を解決する上で潜在的に有益であることを示している。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Deep Generative Demand Learning for Newsvendor and Pricing [7.594251468240168]
我々は、機能ベースのニュースベンダ問題において、データ駆動の在庫と価格決定について検討する。
本稿では,これらの課題に対処するために条件付き深層生成モデル(cDGM)を活用する新しいアプローチを提案する。
我々は、利益予測の整合性や最適解への決定の収束など、我々のアプローチに対する理論的保証を提供する。
論文 参考訳(メタデータ) (2024-11-13T14:17:26Z) - Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment [15.273192037219077]
不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
論文 参考訳(メタデータ) (2024-10-28T15:12:04Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Combinatorial Optimization with Policy Adaptation using Latent Space Search [44.12073954093942]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。
我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T12:24:54Z) - Accelerate Presolve in Large-Scale Linear Programming via Reinforcement
Learning [92.31528918811007]
本稿では,P1)-(P3) を同時に扱うための簡易かつ効率的な強化学習フレームワーク,すなわち,事前解決のための強化学習(RL4Presolve)を提案する。
2つの解法と8つのベンチマーク(実世界と合成)の実験により、RL4Presolveは大規模LPの解法効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-10-18T09:51:59Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Assured RL: Reinforcement Learning with Almost Sure Constraints [0.0]
我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。
バリアベースの分解を満たす値とアクション値関数を定義する。
我々は,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。
論文 参考訳(メタデータ) (2020-12-24T00:29:28Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。