Fugu-MT 論文翻訳(概要): Speeding up Policy Simulation in Supply Chain RL

論文の概要: Speeding up Policy Simulation in Supply Chain RL

arxiv url: http://arxiv.org/abs/2406.01939v2
Date: Sat, 15 Feb 2025 18:09:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.234269
Title: Speeding up Policy Simulation in Supply Chain RL
Title（参考訳）: サプライチェーンRLにおける政策シミュレーションの高速化
Authors: Vivek Farias, Joren Gijsbrechts, Aryan Khojandi, Tianyi Peng, Andrew Zheng,
Abstract要約: 本質的には、一連の政策評価は単一のシミュレーションで行う必要がある。本稿では,Picard Iterationと呼ばれるポリシーシミュレーションを高速化する反復アルゴリズムを提案する。単一GPUでも大規模SCO問題に対して400倍の高速化を実演する。
参考スコア（独自算出の注目度）: 4.090261445071485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Simulating a single trajectory of a dynamical system under some state-dependent policy is a core bottleneck in policy optimization (PO) algorithms. The many inherently serial policy evaluations that must be performed in a single simulation constitute the bulk of this bottleneck. In applying PO to supply chain optimization (SCO) problems, simulating a single sample path corresponding to one month of a supply chain can take several hours. We present an iterative algorithm to accelerate policy simulation, dubbed Picard Iteration. This scheme carefully assigns policy evaluation tasks to independent processes. Within an iteration, any given process evaluates the policy only on its assigned tasks while assuming a certain "cached" evaluation for other tasks; the cache is updated at the end of the iteration. Implemented on GPUs, this scheme admits batched evaluation of the policy across a single trajectory. We prove that the structure afforded by many SCO problems allows convergence in a small number of iterations independent of the horizon. We demonstrate practical speedups of 400x on large-scale SCO problems even with a single GPU, and also demonstrate practical efficacy in other RL environments.
Abstract（参考訳）: ある状態依存ポリシーの下で力学系の1つの軌道をシミュレートすることは、ポリシー最適化(PO)アルゴリズムにおける中核的なボトルネックである。 1つのシミュレーションで実行しなければならない多くの本質的にシリアルなポリシー評価は、このボトルネックの大部分を構成している。サプライチェーン最適化(SCO)問題にPOを適用する場合、サプライチェーンの1ヶ月に相当する単一のサンプルパスをシミュレートするには数時間を要する可能性がある。本稿では,Picard Iterationと呼ばれるポリシーシミュレーションを高速化する反復アルゴリズムを提案する。このスキームは、政策評価タスクを独立プロセスに慎重に割り当てる。イテレーション内では、任意のプロセスが割り当てられたタスクに対してのみポリシーを評価し、他のタスクに対して特定の"キャッシュ"評価を仮定する。 GPUに実装されたこのスキームは、1つの軌道にまたがるポリシーのバッチ評価を認める。多くのSCO問題によって得られる構造は、水平線に依存しない少数の反復の収束を可能にすることを証明している。我々は,1つのGPUでも大規模SCO問題に対して400倍の実用的高速化を示すとともに,他のRL環境においても実効性を示す。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文参考訳（メタデータ） (2024-02-05T10:04:00Z)
A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。 Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。 Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。 Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。 Deep Actor-Critic Network (DNN)
論文参考訳（メタデータ） (2023-06-10T10:04:54Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。 AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-19T14:46:57Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization [10.789649934346004]
循環政策蒸留法(CPD)という試料効率の高い手法を提案する。 CPDはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、各サブドメインにローカルポリシーを割り当てる。学習された全ての地域政策は、シム・トゥ・リアル・トランスファーのグローバル・ポリシーに蒸留される。
論文参考訳（メタデータ） (2022-07-29T09:22:53Z)
Zeroth-Order Actor-Critic [6.5158195776494]
本稿では,この2つの手法をオンラインアクター・クリティカル・アーキテクチャに統一するゼロ階アクター・クリティカル・アルゴリズム(ZOAC)を提案する。提案手法は,ZOACが0次・1次ベースラインアルゴリズムより優れる,多種多様なポリシーを用いて,多種多様な連続制御ベンチマークを用いて評価する。
論文参考訳（メタデータ） (2022-01-29T07:09:03Z)
Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文参考訳（メタデータ） (2021-10-05T11:33:37Z)
COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文参考訳（メタデータ） (2021-07-27T08:48:01Z)
Policy Gradient for Continuing Tasks in Non-stationary Markov Decision Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文参考訳（メタデータ） (2020-10-16T15:15:42Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)
Reinforcement Learning for POMDP: Partitioned Rollout and Policy Iteration with Application to Autonomous Sequential Repair Problems [2.6389022766562236]
有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
論文参考訳（メタデータ） (2020-02-11T02:38:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。