論文の概要: Neural Inventory Control in Networks via Hindsight Differentiable Policy
Optimization
- arxiv url: http://arxiv.org/abs/2306.11246v1
- Date: Tue, 20 Jun 2023 02:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:49:43.869892
- Title: Neural Inventory Control in Networks via Hindsight Differentiable Policy
Optimization
- Title(参考訳): 後見微分可能なポリシー最適化によるネットワーク内の神経インベントリ制御
- Authors: Matias Alvo, Daniel Russo and Yash Kanoria
- Abstract要約: 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する
DRL法は600次元の原状態ベクトルを適用しても, ほぼ最適条件を常に回復する。
本稿では,在庫ネットワーク内の位置間の弱い(あるいは集約的な)結合制約に対処するニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 7.281385256736536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inventory management offers unique opportunities for reliably evaluating and
applying deep reinforcement learning (DRL). Rather than evaluate DRL algorithms
by comparing against one another or against human experts, we can compare to
the optimum itself in several problem classes with hidden structure. Our DRL
methods consistently recover near-optimal policies in such settings, despite
being applied with up to 600-dimensional raw state vectors. In others, they can
vastly outperform problem-specific heuristics. To reliably apply DRL, we
leverage two insights. First, one can directly optimize the hindsight
performance of any policy using stochastic gradient descent. This uses (i) an
ability to backtest any policy's performance on a subsample of historical
demand observations, and (ii) the differentiability of the total cost incurred
on any subsample with respect to policy parameters. Second, we propose a
natural neural network architecture to address problems with weak (or
aggregate) coupling constraints between locations in an inventory network. This
architecture employs weight duplication for ``sibling'' locations in the
network, and state summarization. We justify this architecture through an
asymptotic guarantee, and empirically affirm its value in handling large-scale
problems.
- Abstract(参考訳): 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する。
drlアルゴリズムを相互比較や人間専門家と比較することで評価する代わりに、隠れ構造を持ついくつかの問題クラスにおいて最適自身を比較することができる。
提案手法は600次元の生状態ベクトルに適用されているにもかかわらず,常に最適に近いポリシーを回復する。
他のケースでは、問題固有のヒューリスティックを大幅に上回ることができる。
DRLを確実に適用するには、2つの洞察を利用する。
まず、確率勾配勾配を用いた任意のポリシーの後方視性能を直接最適化できる。
この用途は
一 歴史的需要観測のサブサンプルにおいて、政策の実績を裏付ける能力、及び
(ii)政策パラメータに関して、任意のサブサンプルに発生する総コストの微分可能性。
第2に,インベントリネットワーク内の位置間の弱い(あるいは集約)結合制約のある問題に対処する,自然なニューラルネットワークアーキテクチャを提案する。
このアーキテクチャはネットワーク内の‘兄弟’位置と状態の要約に重みの重複を用いる。
我々は,このアーキテクチャを漸近的な保証を通じて正当化し,大規模問題を扱う上での価値を実証的に肯定する。
関連論文リスト
- SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search [6.121126813817338]
最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
論文 参考訳(メタデータ) (2023-12-19T22:08:49Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。