論文の概要: Interpretable Reinforcement Learning via Neural Additive Models for
Inventory Management
- arxiv url: http://arxiv.org/abs/2303.10382v2
- Date: Wed, 22 Mar 2023 14:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 11:10:52.347414
- Title: Interpretable Reinforcement Learning via Neural Additive Models for
Inventory Management
- Title(参考訳): インベントリマネジメントのためのニューラル付加モデルによる解釈型強化学習
- Authors: Julien Siems, Maximilian Schambach, Sebastian Schulze, Johannes S.
Otterbach
- Abstract要約: 我々は、多段階、すなわちサプライチェーンのための動的在庫発注ポリシーの開発に注力する。
従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。
本稿では,従来の静的ポリシーと同程度に解釈可能な強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 3.714118205123092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The COVID-19 pandemic has highlighted the importance of supply chains and the
role of digital management to react to dynamic changes in the environment. In
this work, we focus on developing dynamic inventory ordering policies for a
multi-echelon, i.e. multi-stage, supply chain. Traditional inventory
optimization methods aim to determine a static reordering policy. Thus, these
policies are not able to adjust to dynamic changes such as those observed
during the COVID-19 crisis. On the other hand, conventional strategies offer
the advantage of being interpretable, which is a crucial feature for supply
chain managers in order to communicate decisions to their stakeholders. To
address this limitation, we propose an interpretable reinforcement learning
approach that aims to be as interpretable as the traditional static policies
while being as flexible and environment-agnostic as other deep learning-based
reinforcement learning solutions. We propose to use Neural Additive Models as
an interpretable dynamic policy of a reinforcement learning agent, showing that
this approach is competitive with a standard full connected policy. Finally, we
use the interpretability property to gain insights into a complex ordering
strategy for a simple, linear three-echelon inventory supply chain.
- Abstract(参考訳): 新型コロナウイルスのパンデミックは、サプライチェーンの重要性と、環境の動的変化に対応するためのデジタルマネジメントの重要性を強調している。
本研究では,多段階,すなわちサプライチェーンのための動的在庫発注ポリシーの開発に焦点をあてる。
従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。
したがって、これらの政策は、新型コロナウイルス危機で観察されたような動的変化に適応できない。
一方、従来の戦略は、ステークホルダーに意思決定を伝えるためにサプライチェーンマネージャにとって重要な特徴である解釈可能な利点を提供する。
そこで本研究では,従来の静的ポリシと同等に解釈可能でありながら,他の深層学習に基づく強化学習ソリューションと同じくらい柔軟で環境に依存しない,解釈可能な強化学習手法を提案する。
本稿では,強化学習エージェントの解釈可能な動的ポリシとしてニューラル添加モデルを用いることを提案し,本手法が標準の完全連結ポリシーと競合することを示す。
最後に、この解釈可能性特性を用いて、単純で線形な3エキロン在庫サプライチェーンの複雑な注文戦略の洞察を得る。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Agent based modelling for continuously varying supply chains [4.163948606359882]
本稿では, エージェントが様々なサプライチェーン問題を制御できるかどうかを検討する。
最先端の強化学習(RL)アルゴリズムを2つ比較した。
結果は、バッチ環境で採用されるリーン戦略が、さまざまな製品を持つ環境で採用されている戦略と異なることを示している。
論文 参考訳(メタデータ) (2023-12-24T15:04:46Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Contextual Bandits for Evaluating and Improving Inventory Control
Policies [2.2530496464901106]
均衡政策の概念、つまり政策の望ましい性質は、直感的に言えば、わずかな行動だけを変えるだけでは、実質的な報奨が得られないことを意味する。
本手法は,理論上も経験上も良好な保証を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-24T18:00:40Z) - Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。