Fugu-MT 論文翻訳(概要): Interpretable Reinforcement Learning via Neural Additive Models for Inventory Management

論文の概要: Interpretable Reinforcement Learning via Neural Additive Models for Inventory Management

arxiv url: http://arxiv.org/abs/2303.10382v2
Date: Wed, 22 Mar 2023 14:19:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 11:10:52.347414
Title: Interpretable Reinforcement Learning via Neural Additive Models for Inventory Management
Title（参考訳）: インベントリマネジメントのためのニューラル付加モデルによる解釈型強化学習
Authors: Julien Siems, Maximilian Schambach, Sebastian Schulze, Johannes S. Otterbach
Abstract要約: 我々は、多段階、すなわちサプライチェーンのための動的在庫発注ポリシーの開発に注力する。従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。本稿では,従来の静的ポリシーと同程度に解釈可能な強化学習手法を提案する。
参考スコア（独自算出の注目度）: 3.714118205123092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The COVID-19 pandemic has highlighted the importance of supply chains and the role of digital management to react to dynamic changes in the environment. In this work, we focus on developing dynamic inventory ordering policies for a multi-echelon, i.e. multi-stage, supply chain. Traditional inventory optimization methods aim to determine a static reordering policy. Thus, these policies are not able to adjust to dynamic changes such as those observed during the COVID-19 crisis. On the other hand, conventional strategies offer the advantage of being interpretable, which is a crucial feature for supply chain managers in order to communicate decisions to their stakeholders. To address this limitation, we propose an interpretable reinforcement learning approach that aims to be as interpretable as the traditional static policies while being as flexible and environment-agnostic as other deep learning-based reinforcement learning solutions. We propose to use Neural Additive Models as an interpretable dynamic policy of a reinforcement learning agent, showing that this approach is competitive with a standard full connected policy. Finally, we use the interpretability property to gain insights into a complex ordering strategy for a simple, linear three-echelon inventory supply chain.
Abstract（参考訳）: 新型コロナウイルスのパンデミックは、サプライチェーンの重要性と、環境の動的変化に対応するためのデジタルマネジメントの重要性を強調している。本研究では,多段階,すなわちサプライチェーンのための動的在庫発注ポリシーの開発に焦点をあてる。従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。したがって、これらの政策は、新型コロナウイルス危機で観察されたような動的変化に適応できない。一方、従来の戦略は、ステークホルダーに意思決定を伝えるためにサプライチェーンマネージャにとって重要な特徴である解釈可能な利点を提供する。そこで本研究では,従来の静的ポリシと同等に解釈可能でありながら,他の深層学習に基づく強化学習ソリューションと同じくらい柔軟で環境に依存しない,解釈可能な強化学習手法を提案する。本稿では,強化学習エージェントの解釈可能な動的ポリシとしてニューラル添加モデルを用いることを提案し,本手法が標準の完全連結ポリシーと競合することを示す。最後に、この解釈可能性特性を用いて、単純で線形な3エキロン在庫サプライチェーンの複雑な注文戦略の洞察を得る。

関連論文リスト

An Analytics-Driven Approach to Enhancing Supply Chain Visibility with Graph Neural Networks and Federated Learning [52.79646338275159]
本稿では,フェデレートラーニング(FL)とグラフ畳み込みニューラルネットワーク(GCN)を統合して,サプライチェーンの可視性を高める手法を提案する。 FLは、生のデータ交換を必要とせず、情報共有を容易にすることで、国間での協調的なモデルトレーニングを可能にする。 GCNは、知識グラフ内の複雑なリレーショナルパターンをキャプチャするフレームワークを強化し、正確なリンク予測を可能にして、隠れたコネクションを明らかにする。
論文参考訳（メタデータ） (2025-03-10T12:15:45Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフラインの強化学習では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-05-31T00:41:04Z)
Agent based modelling for continuously varying supply chains [4.163948606359882]
本稿では, エージェントが様々なサプライチェーン問題を制御できるかどうかを検討する。最先端の強化学習(RL)アルゴリズムを2つ比較した。結果は、バッチ環境で採用されるリーン戦略が、さまざまな製品を持つ環境で採用されている戦略と異なることを示している。
論文参考訳（メタデータ） (2023-12-24T15:04:46Z)
Contextual Bandits for Evaluating and Improving Inventory Control Policies [2.2530496464901106]
均衡政策の概念、つまり政策の望ましい性質は、直感的に言えば、わずかな行動だけを変えるだけでは、実質的な報奨が得られないことを意味する。本手法は,理論上も経験上も良好な保証を達成できることを示す。
論文参考訳（メタデータ） (2023-10-24T18:00:40Z)
Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文参考訳（メタデータ） (2023-08-11T13:33:59Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は直立位置での力学系の教師なし安定化を可能にする本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文参考訳（メタデータ） (2020-07-14T21:10:16Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)
Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文参考訳（メタデータ） (2020-02-29T07:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。