論文の概要: Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints
- arxiv url: http://arxiv.org/abs/2212.01689v1
- Date: Sat, 3 Dec 2022 20:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:03:04.035757
- Title: Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints
- Title(参考訳): 予算制約を考慮したオンライン最適化のための学習支援アルゴリズム
- Authors: Jianyi Yang, Shaolei Ren
- Abstract要約: 我々はLAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる新しい機械学習支援アンローリング手法を提案する。
バックプロパゲーションによる効率的なトレーニングには、時間とともに決定パイプラインの勾配を導出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
- 参考スコア(独自算出の注目度): 27.84415856657607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online optimization with multiple budget constraints is challenging since the
online decisions over a short time horizon are coupled together by strict
inventory constraints. The existing manually-designed algorithms cannot achieve
satisfactory average performance for this setting because they often need a
large number of time steps for convergence and/or may violate the inventory
constraints. In this paper, we propose a new machine learning (ML) assisted
unrolling approach, called LAAU (Learning-Assisted Algorithm Unrolling), which
unrolls the online decision pipeline and leverages an ML model for updating the
Lagrangian multiplier online. For efficient training via backpropagation, we
derive gradients of the decision pipeline over time. We also provide the
average cost bounds for two cases when training data is available offline and
collected online, respectively. Finally, we present numerical results to
highlight that LAAU can outperform the existing baselines.
- Abstract(参考訳): 複数の予算制約によるオンライン最適化は、短い時間軸でのオンライン決定が厳格な在庫制約によって結合されるため、困難である。
既存の手動設計アルゴリズムは、コンバージェンスのために多くの時間ステップを必要とする場合や、在庫制約に違反する可能性があるため、この設定で十分な平均性能を達成できない。
本稿では、オンライン決定パイプラインをアンロールし、ラグランジアン乗算器をオンラインで更新するためのMLモデルを利用する、LAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる機械学習支援アンロール手法を提案する。
バックプロパゲーションによる効率的なトレーニングでは、時間とともに決定パイプラインの勾配を導き出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
最後に,LAAUが既存のベースラインより優れていることを示す数値結果を示す。
関連論文リスト
- Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。
我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。
我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文 参考訳(メタデータ) (2025-01-28T13:21:59Z) - Optimization Proxies using Limited Labeled Data and Training Time -- A Semi-Supervised Bayesian Neural Network Approach [2.943640991628177]
制約のある最適化問題は、在庫管理電力グリッドのような様々なエンジニアリングシステムで発生する。
本研究では,ベイジアンネットワーク(BNN)を用いて,制限されたデータと制限されたモデル時間の下での制約付き最適化問題の解法を提案する。
提案手法は,従来のBNNおよびディープニューラルネットワーク(DNN)アーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-04T02:10:20Z) - Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。
オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。
オフライン強化学習による分散学習(Offline-LD)について紹介する。
論文 参考訳(メタデータ) (2024-09-16T15:18:10Z) - Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling [42.6574685545681]
本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。
まず、線形プログラム(LP)を介して解ける弱結合マルコフ決定過程(MDP)として問題を提示する。
LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて,オンラインパラメータ学習とポリシー最適化の問題に対処するために拡張する。
論文 参考訳(メタデータ) (2024-06-20T09:34:24Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Methods for Non-stationary Online Learning [61.63338724659592]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
また、さらに強化された測度、すなわち「インターバル・ダイナミック・リピート」を研究し、ラウンド当たりの射影数を$mathcalO(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Online Convex Optimization with Long Term Constraints for Predictable
Sequences [5.964436882344728]
我々は,長期的制約を伴うOCOと呼ばれるOCOの特定の枠組みについて検討する。
長期的制約は、オンライン最適化における更新ステップ毎に、プロジェクションの複雑さを減らす代替手段として導入される。
我々は,次の関数の情報をシーケンスで供給できる予測器を用いて,予測なしで達成できる率よりも厳密に少ない,全体的な後悔と制約違反率を達成することができることを示した。
論文 参考訳(メタデータ) (2022-10-30T03:50:53Z) - Augmented Lagrangian Methods for Time-varying Constrained Online Convex
Optimization [1.662966122370634]
オンライン凸最適化(OCO)と時間的損失と制約関数について検討する。
まず,時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法(MALM)のクラスを開発する。
提案アルゴリズムの効率性を示すために, 制約OCOのいくつかの例について数値計算を行った。
論文 参考訳(メタデータ) (2022-05-19T14:03:25Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。