論文の概要: Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints
- arxiv url: http://arxiv.org/abs/2212.01689v1
- Date: Sat, 3 Dec 2022 20:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:03:04.035757
- Title: Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints
- Title(参考訳): 予算制約を考慮したオンライン最適化のための学習支援アルゴリズム
- Authors: Jianyi Yang, Shaolei Ren
- Abstract要約: 我々はLAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる新しい機械学習支援アンローリング手法を提案する。
バックプロパゲーションによる効率的なトレーニングには、時間とともに決定パイプラインの勾配を導出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
- 参考スコア(独自算出の注目度): 27.84415856657607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online optimization with multiple budget constraints is challenging since the
online decisions over a short time horizon are coupled together by strict
inventory constraints. The existing manually-designed algorithms cannot achieve
satisfactory average performance for this setting because they often need a
large number of time steps for convergence and/or may violate the inventory
constraints. In this paper, we propose a new machine learning (ML) assisted
unrolling approach, called LAAU (Learning-Assisted Algorithm Unrolling), which
unrolls the online decision pipeline and leverages an ML model for updating the
Lagrangian multiplier online. For efficient training via backpropagation, we
derive gradients of the decision pipeline over time. We also provide the
average cost bounds for two cases when training data is available offline and
collected online, respectively. Finally, we present numerical results to
highlight that LAAU can outperform the existing baselines.
- Abstract(参考訳): 複数の予算制約によるオンライン最適化は、短い時間軸でのオンライン決定が厳格な在庫制約によって結合されるため、困難である。
既存の手動設計アルゴリズムは、コンバージェンスのために多くの時間ステップを必要とする場合や、在庫制約に違反する可能性があるため、この設定で十分な平均性能を達成できない。
本稿では、オンライン決定パイプラインをアンロールし、ラグランジアン乗算器をオンラインで更新するためのMLモデルを利用する、LAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる機械学習支援アンロール手法を提案する。
バックプロパゲーションによる効率的なトレーニングでは、時間とともに決定パイプラインの勾配を導き出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
最後に,LAAUが既存のベースラインより優れていることを示す数値結果を示す。
関連論文リスト
- Optimization Proxies using Limited Labeled Data and Training Time -- A Semi-Supervised Bayesian Neural Network Approach [2.943640991628177]
制約のある最適化問題は、在庫管理電力グリッドのような様々なエンジニアリングシステムで発生する。
本研究では,ベイジアンネットワーク(BNN)を用いて,制限されたデータと制限されたモデル時間の下での制約付き最適化問題の解法を提案する。
提案手法は,従来のBNNおよびディープニューラルネットワーク(DNN)アーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-04T02:10:20Z) - Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling [42.6574685545681]
本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。
まず、線形プログラム(LP)を介して解ける弱結合マルコフ決定過程(MDP)として問題を提示する。
LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて,オンラインパラメータ学習とポリシー最適化の問題に対処するために拡張する。
論文 参考訳(メタデータ) (2024-06-20T09:34:24Z) - LinearAPT: An Adaptive Algorithm for the Fixed-Budget Thresholding
Linear Bandit Problem [4.666048091337632]
本稿では、Thresholding Linear Bandit(TLB)問題の固定予算設定のために設計された新しいアルゴリズムであるLinearAPTを提案する。
コントリビューションでは、LinearAPTの適応性、単純性、計算効率を強調しており、複雑なシーケンシャルな意思決定課題に対処するためのツールキットとして貴重なものとなっている。
論文 参考訳(メタデータ) (2024-03-10T15:01:50Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Online Convex Optimization with Long Term Constraints for Predictable
Sequences [5.964436882344728]
我々は,長期的制約を伴うOCOと呼ばれるOCOの特定の枠組みについて検討する。
長期的制約は、オンライン最適化における更新ステップ毎に、プロジェクションの複雑さを減らす代替手段として導入される。
我々は,次の関数の情報をシーケンスで供給できる予測器を用いて,予測なしで達成できる率よりも厳密に少ない,全体的な後悔と制約違反率を達成することができることを示した。
論文 参考訳(メタデータ) (2022-10-30T03:50:53Z) - Augmented Lagrangian Methods for Time-varying Constrained Online Convex
Optimization [1.662966122370634]
オンライン凸最適化(OCO)と時間的損失と制約関数について検討する。
まず,時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法(MALM)のクラスを開発する。
提案アルゴリズムの効率性を示すために, 制約OCOのいくつかの例について数値計算を行った。
論文 参考訳(メタデータ) (2022-05-19T14:03:25Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。