論文の概要: Behaviorally Grounded Model-Based and Model Free Cost Reduction in a
Simulated Multi-Echelon Supply Chain
- arxiv url: http://arxiv.org/abs/2202.12786v1
- Date: Fri, 25 Feb 2022 16:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:03:38.032255
- Title: Behaviorally Grounded Model-Based and Model Free Cost Reduction in a
Simulated Multi-Echelon Supply Chain
- Title(参考訳): シミュレーション多面体供給チェーンにおけるモデルベースモデルとモデルフリーコストの低減
- Authors: James Paine
- Abstract要約: ブルウィップは在庫管理における残響効果の問題である。
ブルウィップの研究は、この現象に対する行動の影響を一貫して強調してきた。
著者は、行動に基づくモデルベースアプローチとモデルフリーアプローチの両方を用いて、ブルウィップを緩和するアルゴリズム的なアプローチを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amplification and phase shift in ordering signals, commonly referred to as
bullwhip, are responsible for both excessive strain on real world inventory
management systems, stock outs, and unnecessary capital reservation though
safety stock building. Bullwhip is a classic, yet persisting, problem with
reverberating consequences in inventory management. Research on bullwhip has
consistently emphasized behavioral influences for this phenomenon and leveraged
behavioral ordering models to suggest interventions. However more recent
model-free approaches have also seen success. In this work, the author develops
algorithmic approaches towards mitigating bullwhip using both behaviorally
grounded model-based approaches alongside a model-free dual deep Q-network
reinforcement learning approach. In addition to exploring the utility of this
specific model-free architecture to multi-echelon supply chains with imperfect
information sharing and information delays, the author directly compares the
performance of these model-based and model-free approaches. In doing so, this
work highlights both the insights gained from exploring model-based approaches
in the context of prior behavioral operations management literature and
emphasizes the complementary nature of model-based and model-free approaches in
approaching behaviorally grounded supply chain management problems.
- Abstract(参考訳): 注文信号の増幅と位相シフトは、一般にブルホイップと呼ばれ、現実世界の在庫管理システム、在庫、そして安全ストックビルの不要な資本予約の両方に過度な負担を負う。
bullwhipは、在庫管理における残響的な結果に関する古典的な、しかし永続的な問題である。
ブルウィップの研究は、この現象に対する行動の影響を一貫して強調し、介入を提案する行動順序モデルを活用している。
しかし、最近のモデルフリーアプローチも成功している。
本研究では,モデルフリーな2重深層qネットワーク強化学習手法と並行して,振る舞いに基づくモデルベースアプローチを用いてブルホイップを緩和するアルゴリズム的アプローチを開発した。
モデルベースおよびモデルフリーアプローチの性能を直接比較した上で,このモデルフリーアーキテクチャのマルチエキロンサプライチェーンに対する不完全な情報共有と情報遅延に対する有用性について検討する。
そこで本研究では,事前行動操作管理文献の文脈におけるモデルベースアプローチの探求から得られた知見と,行動的接地型サプライチェーン管理問題へのアプローチにおけるモデルベースおよびモデルフリーアプローチの相補的性質を強調した。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [37.387280102209274]
オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。
モデルベースの手法は、エージェントが学習されたダイナミックスモデルでロールアウトを介して追加の合成データを収集できるようにすることで、ソリューションを提供する。
しかし、学習したダイナミックスモデルを真のエラーフリーなダイナミックスに置き換えると、既存のモデルベースのメソッドは完全に失敗する。
本稿では, エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Value Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。