論文の概要: Neural Inventory Control in Networks via Hindsight Differentiable Policy
Optimization
- arxiv url: http://arxiv.org/abs/2306.11246v1
- Date: Tue, 20 Jun 2023 02:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:49:43.869892
- Title: Neural Inventory Control in Networks via Hindsight Differentiable Policy
Optimization
- Title(参考訳): 後見微分可能なポリシー最適化によるネットワーク内の神経インベントリ制御
- Authors: Matias Alvo, Daniel Russo and Yash Kanoria
- Abstract要約: 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する
DRL法は600次元の原状態ベクトルを適用しても, ほぼ最適条件を常に回復する。
本稿では,在庫ネットワーク内の位置間の弱い(あるいは集約的な)結合制約に対処するニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 7.281385256736536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inventory management offers unique opportunities for reliably evaluating and
applying deep reinforcement learning (DRL). Rather than evaluate DRL algorithms
by comparing against one another or against human experts, we can compare to
the optimum itself in several problem classes with hidden structure. Our DRL
methods consistently recover near-optimal policies in such settings, despite
being applied with up to 600-dimensional raw state vectors. In others, they can
vastly outperform problem-specific heuristics. To reliably apply DRL, we
leverage two insights. First, one can directly optimize the hindsight
performance of any policy using stochastic gradient descent. This uses (i) an
ability to backtest any policy's performance on a subsample of historical
demand observations, and (ii) the differentiability of the total cost incurred
on any subsample with respect to policy parameters. Second, we propose a
natural neural network architecture to address problems with weak (or
aggregate) coupling constraints between locations in an inventory network. This
architecture employs weight duplication for ``sibling'' locations in the
network, and state summarization. We justify this architecture through an
asymptotic guarantee, and empirically affirm its value in handling large-scale
problems.
- Abstract(参考訳): 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する。
drlアルゴリズムを相互比較や人間専門家と比較することで評価する代わりに、隠れ構造を持ついくつかの問題クラスにおいて最適自身を比較することができる。
提案手法は600次元の生状態ベクトルに適用されているにもかかわらず,常に最適に近いポリシーを回復する。
他のケースでは、問題固有のヒューリスティックを大幅に上回ることができる。
DRLを確実に適用するには、2つの洞察を利用する。
まず、確率勾配勾配を用いた任意のポリシーの後方視性能を直接最適化できる。
この用途は
一 歴史的需要観測のサブサンプルにおいて、政策の実績を裏付ける能力、及び
(ii)政策パラメータに関して、任意のサブサンプルに発生する総コストの微分可能性。
第2に,インベントリネットワーク内の位置間の弱い(あるいは集約)結合制約のある問題に対処する,自然なニューラルネットワークアーキテクチャを提案する。
このアーキテクチャはネットワーク内の‘兄弟’位置と状態の要約に重みの重複を用いる。
我々は,このアーキテクチャを漸近的な保証を通じて正当化し,大規模問題を扱う上での価値を実証的に肯定する。
関連論文リスト
- Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。