論文の概要: Solving Dual Sourcing Problems with Supply Mode Dependent Failure Rates
- arxiv url: http://arxiv.org/abs/2410.03887v1
- Date: Fri, 4 Oct 2024 19:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:40:54.420538
- Title: Solving Dual Sourcing Problems with Supply Mode Dependent Failure Rates
- Title(参考訳): 供給モード依存型故障率によるデュアルサーシング問題の解法
- Authors: Fabian Akkerman, Nils Knofius, Matthieu van der Heijden, Martijn Mes,
- Abstract要約: 本稿では、サプライモード依存故障率による二重ソーシング問題、特に、ダウンタイムクリティカル資産の予備部品管理に関係のある問題について検討する。
レジリエンスを高めるために、企業は従来の製造技術と付加的な製造技術の両方を用いて、デュアルソーシング戦略を採用するようになった。
内因性パラメタライズドラーニング(EPL)アプローチと組み合わせた,新しい反復的および複数の強化学習手法を提案する。
エネルギー部門におけるケーススタディでは、私たちの政策は91.1%のインスタンスでベースラインを上回り、平均コストは22.6%まで削減される。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates dual sourcing problems with supply mode dependent failure rates, particularly relevant in managing spare parts for downtime-critical assets. To enhance resilience, businesses increasingly adopt dual sourcing strategies using both conventional and additive manufacturing techniques. This paper explores how these strategies can optimise sourcing by addressing variations in part properties and failure rates. A significant challenge is the distinct failure characteristics of parts produced by these methods, which influence future demand. To tackle this, we propose a new iterative heuristic and several reinforcement learning techniques combined with an endogenous parameterised learning (EPL) approach. This EPL approach - compatible with any learning method - allows a single policy to handle various input parameters for multiple items. In a stylised setting, our best policy achieves an average optimality gap of 0.4%. In a case study within the energy sector, our policies outperform the baseline in 91.1% of instances, yielding average cost savings up to 22.6%.
- Abstract(参考訳): 本稿では、サプライモード依存故障率による二重ソーシング問題、特に、ダウンタイムクリティカル資産の予備部品管理に関係のある問題について検討する。
レジリエンスを高めるために、企業は従来の製造技術と付加的な製造技術の両方を用いて、デュアルソーシング戦略を採用するようになった。
本稿では,これらの戦略が,部品特性や故障率の変動に対処してソーシングを最適化する方法について検討する。
重要な課題は、これらの手法が生み出す部品の障害特性が、将来の需要に影響を及ぼすことである。
そこで本研究では,新たな反復的ヒューリスティックおよび複数の強化学習手法と,内因性パラメータ学習(EPL)アプローチを併用して提案する。
このEPLアプローチは、どんな学習方法とも互換性があり、単一のポリシーで複数の項目に対して様々な入力パラメータを処理できます。
スタイリングされた環境では、我々の最良のポリシーは平均最適性ギャップを0.4%達成する。
エネルギー部門におけるケーススタディでは、私たちの政策は91.1%のインスタンスでベースラインを上回り、平均コストは22.6%まで削減される。
関連論文リスト
- Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment [15.273192037219077]
不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
論文 参考訳(メタデータ) (2024-10-28T15:12:04Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement
Learning with Contextual Information [4.42532447134568]
本研究では,文脈情報による問題を克服するために2つの手法を用いる。
量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。
実験の結果,両手法が強化学習の進行を加速し,最適解が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-01T11:25:20Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Towards Optimal Pricing of Demand Response -- A Nonparametric
Constrained Policy Optimization Approach [2.345728642535161]
需要応答(DR)は、ピーク負荷を低減し、電力市場の需給側における不確実性を緩和する有効な方法であることが示されている。
DR研究の重要な問題のひとつは、電気負荷をピークからオフピーク時間にシフトさせるために、電気価格を適切に調整する方法である。
政策更新の安定性を確保しつつ、最適性を向上する革新的な非パラメトリック制約付き政策最適化手法を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:07:51Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。