Fugu-MT 論文翻訳(概要): Learning-Assisted Algorithm Unrolling for Online Optimization with Budget Constraints

論文の概要: Learning-Assisted Algorithm Unrolling for Online Optimization with Budget Constraints

arxiv url: http://arxiv.org/abs/2212.01689v1
Date: Sat, 3 Dec 2022 20:56:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 16:03:04.035757
Title: Learning-Assisted Algorithm Unrolling for Online Optimization with Budget Constraints
Title（参考訳）: 予算制約を考慮したオンライン最適化のための学習支援アルゴリズム
Authors: Jianyi Yang, Shaolei Ren
Abstract要約: 我々はLAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる新しい機械学習支援アンローリング手法を提案する。バックプロパゲーションによる効率的なトレーニングには、時間とともに決定パイプラインの勾配を導出します。また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
参考スコア（独自算出の注目度）: 27.84415856657607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online optimization with multiple budget constraints is challenging since the online decisions over a short time horizon are coupled together by strict inventory constraints. The existing manually-designed algorithms cannot achieve satisfactory average performance for this setting because they often need a large number of time steps for convergence and/or may violate the inventory constraints. In this paper, we propose a new machine learning (ML) assisted unrolling approach, called LAAU (Learning-Assisted Algorithm Unrolling), which unrolls the online decision pipeline and leverages an ML model for updating the Lagrangian multiplier online. For efficient training via backpropagation, we derive gradients of the decision pipeline over time. We also provide the average cost bounds for two cases when training data is available offline and collected online, respectively. Finally, we present numerical results to highlight that LAAU can outperform the existing baselines.
Abstract（参考訳）: 複数の予算制約によるオンライン最適化は、短い時間軸でのオンライン決定が厳格な在庫制約によって結合されるため、困難である。既存の手動設計アルゴリズムは、コンバージェンスのために多くの時間ステップを必要とする場合や、在庫制約に違反する可能性があるため、この設定で十分な平均性能を達成できない。本稿では、オンライン決定パイプラインをアンロールし、ラグランジアン乗算器をオンラインで更新するためのMLモデルを利用する、LAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる機械学習支援アンロール手法を提案する。バックプロパゲーションによる効率的なトレーニングでは、時間とともに決定パイプラインの勾配を導き出します。また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。最後に,LAAUが既存のベースラインより優れていることを示す数値結果を示す。

関連論文リスト

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文参考訳（メタデータ） (2025-01-28T13:21:59Z)
Optimization Proxies using Limited Labeled Data and Training Time -- A Semi-Supervised Bayesian Neural Network Approach [2.943640991628177]
制約のある最適化問題は、在庫管理電力グリッドのような様々なエンジニアリングシステムで発生する。本研究では,ベイジアンネットワーク(BNN)を用いて,制限されたデータと制限されたモデル時間の下での制約付き最適化問題の解法を提案する。提案手法は,従来のBNNおよびディープニューラルネットワーク(DNN)アーキテクチャよりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-04T02:10:20Z)
Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。オフライン強化学習による分散学習(Offline-LD)について紹介する。
論文参考訳（メタデータ） (2024-09-16T15:18:10Z)
Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling [42.6574685545681]
本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。まず、線形プログラム(LP)を介して解ける弱結合マルコフ決定過程(MDP)として問題を提示する。 LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて,オンラインパラメータ学習とポリシー最適化の問題に対処するために拡張する。
論文参考訳（メタデータ） (2024-06-20T09:34:24Z)
LinearAPT: An Adaptive Algorithm for the Fixed-Budget Thresholding Linear Bandit Problem [4.666048091337632]
本稿では、Thresholding Linear Bandit(TLB)問題の固定予算設定のために設計された新しいアルゴリズムであるLinearAPTを提案する。コントリビューションでは、LinearAPTの適応性、単純性、計算効率を強調しており、複雑なシーケンシャルな意思決定課題に対処するためのツールキットとして貴重なものとなっている。
論文参考訳（メタデータ） (2024-03-10T15:01:50Z)
Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文参考訳（メタデータ） (2024-03-06T04:43:22Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文参考訳（メタデータ） (2023-09-16T07:30:12Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文参考訳（メタデータ） (2023-02-10T18:45:52Z)
Efficient Online Learning with Memory via Frank-Wolfe Optimization: Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文参考訳（メタデータ） (2023-01-02T01:12:29Z)
Online Convex Optimization with Long Term Constraints for Predictable Sequences [5.964436882344728]
我々は,長期的制約を伴うOCOと呼ばれるOCOの特定の枠組みについて検討する。長期的制約は、オンライン最適化における更新ステップ毎に、プロジェクションの複雑さを減らす代替手段として導入される。我々は,次の関数の情報をシーケンスで供給できる予測器を用いて,予測なしで達成できる率よりも厳密に少ない,全体的な後悔と制約違反率を達成することができることを示した。
論文参考訳（メタデータ） (2022-10-30T03:50:53Z)
Augmented Lagrangian Methods for Time-varying Constrained Online Convex Optimization [1.662966122370634]
オンライン凸最適化(OCO)と時間的損失と制約関数について検討する。まず,時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法(MALM)のクラスを開発する。提案アルゴリズムの効率性を示すために, 制約OCOのいくつかの例について数値計算を行った。
論文参考訳（メタデータ） (2022-05-19T14:03:25Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。