Fugu-MT 論文翻訳(概要): Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization

論文の概要: Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization

arxiv url: http://arxiv.org/abs/2306.11246v1
Date: Tue, 20 Jun 2023 02:58:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 15:49:43.869892
Title: Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization
Title（参考訳）: 後見微分可能なポリシー最適化によるネットワーク内の神経インベントリ制御
Authors: Matias Alvo, Daniel Russo and Yash Kanoria
Abstract要約: 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する DRL法は600次元の原状態ベクトルを適用しても, ほぼ最適条件を常に回復する。本稿では,在庫ネットワーク内の位置間の弱い(あるいは集約的な)結合制約に対処するニューラルネットワークアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 7.281385256736536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inventory management offers unique opportunities for reliably evaluating and applying deep reinforcement learning (DRL). Rather than evaluate DRL algorithms by comparing against one another or against human experts, we can compare to the optimum itself in several problem classes with hidden structure. Our DRL methods consistently recover near-optimal policies in such settings, despite being applied with up to 600-dimensional raw state vectors. In others, they can vastly outperform problem-specific heuristics. To reliably apply DRL, we leverage two insights. First, one can directly optimize the hindsight performance of any policy using stochastic gradient descent. This uses (i) an ability to backtest any policy's performance on a subsample of historical demand observations, and (ii) the differentiability of the total cost incurred on any subsample with respect to policy parameters. Second, we propose a natural neural network architecture to address problems with weak (or aggregate) coupling constraints between locations in an inventory network. This architecture employs weight duplication for ``sibling'' locations in the network, and state summarization. We justify this architecture through an asymptotic guarantee, and empirically affirm its value in handling large-scale problems.
Abstract（参考訳）: 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する。 drlアルゴリズムを相互比較や人間専門家と比較することで評価する代わりに、隠れ構造を持ついくつかの問題クラスにおいて最適自身を比較することができる。提案手法は600次元の生状態ベクトルに適用されているにもかかわらず,常に最適に近いポリシーを回復する。他のケースでは、問題固有のヒューリスティックを大幅に上回ることができる。 DRLを確実に適用するには、2つの洞察を利用する。まず、確率勾配勾配を用いた任意のポリシーの後方視性能を直接最適化できる。この用途は一歴史的需要観測のサブサンプルにおいて、政策の実績を裏付ける能力、及び (ii)政策パラメータに関して、任意のサブサンプルに発生する総コストの微分可能性。第2に,インベントリネットワーク内の位置間の弱い(あるいは集約)結合制約のある問題に対処する,自然なニューラルネットワークアーキテクチャを提案する。このアーキテクチャはネットワーク内の‘兄弟’位置と状態の要約に重みの重複を用いる。我々は,このアーキテクチャを漸近的な保証を通じて正当化し,大規模問題を扱う上での価値を実証的に肯定する。

関連論文リスト

Structure-Informed Deep Reinforcement Learning for Inventory Management [8.697068617006964]
本稿では,古典的在庫管理問題に対するDeep Reinforcement Learningの適用について検討する。我々はDirectBackpropに基づくDRLアルゴリズムをいくつかの基本的な在庫管理シナリオに適用する。本稿では,我々の汎用DRL実装が,確立したベンチマークや分布に対して競争的に,あるいは性能的に優れていることを示す。
論文参考訳（メタデータ） (2025-07-29T17:41:45Z)
Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。電力制御のケーススタディにおいて数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy Optimization [13.75709067982844]
因果発見のための信頼領域探索型クリッピングポリシー最適化手法を提案する。また、SDGATと呼ばれる改良されたグラフアテンションエンコーダを提案し、効率よく変数を符号化する。これらの改善により、提案手法は、合成データセットとベンチマークデータセットの両方において、以前のRL法よりも優れている。
論文参考訳（メタデータ） (2024-12-27T10:50:43Z)
SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture Search [6.121126813817338]
最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
論文参考訳（メタデータ） (2023-12-19T22:08:49Z)
Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文参考訳（メタデータ） (2023-10-06T15:34:21Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Diversity Through Exclusion (DTE): Niche Identification for Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文参考訳（メタデータ） (2023-02-02T16:00:19Z)
Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文参考訳（メタデータ） (2022-06-22T19:00:08Z)
Learning Optimal Antenna Tilt Control Policies: A Contextual Linear Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文参考訳（メタデータ） (2022-01-06T18:24:30Z)
Math Programming based Reinforcement Learning for Multi-Echelon Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。 PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文参考訳（メタデータ） (2021-12-04T01:40:34Z)
Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文参考訳（メタデータ） (2021-09-07T17:29:34Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。 PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文参考訳（メタデータ） (2020-07-31T01:02:57Z)
Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-27T17:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。