論文の概要: Robustified Learning for Online Optimization with Memory Costs
- arxiv url: http://arxiv.org/abs/2305.00677v1
- Date: Mon, 1 May 2023 06:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:51:25.988137
- Title: Robustified Learning for Online Optimization with Memory Costs
- Title(参考訳): メモリコストを考慮したオンライン最適化のためのロバスト化学習
- Authors: Pengfei Li, Jianyi Yang, Shaolei Ren
- Abstract要約: 本稿では,高い平均性能とロバスト性を両立する,新しいエキスパート・ロバスト学習(ERL)手法を提案する。
任意の$lambdageq1$に対して、ERLはエキスパートアルゴリズムに対して$lambda$-competitive、最適なオフラインアルゴリズムに対して$lambdacdot C$-competitiveを達成することができる。
- 参考スコア(独自算出の注目度): 28.737193318136725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online optimization with memory costs has many real-world applications, where
sequential actions are made without knowing the future input. Nonetheless, the
memory cost couples the actions over time, adding substantial challenges.
Conventionally, this problem has been approached by various expert-designed
online algorithms with the goal of achieving bounded worst-case competitive
ratios, but the resulting average performance is often unsatisfactory. On the
other hand, emerging machine learning (ML) based optimizers can improve the
average performance, but suffer from the lack of worst-case performance
robustness. In this paper, we propose a novel expert-robustified learning (ERL)
approach, achieving {both} good average performance and robustness. More
concretely, for robustness, ERL introduces a novel projection operator that
robustifies ML actions by utilizing an expert online algorithm; for average
performance, ERL trains the ML optimizer based on a recurrent architecture by
explicitly considering downstream expert robustification. We prove that, for
any $\lambda\geq1$, ERL can achieve $\lambda$-competitive against the expert
algorithm and $\lambda\cdot C$-competitive against the optimal offline
algorithm (where $C$ is the expert's competitive ratio). Additionally, we
extend our analysis to a novel setting of multi-step memory costs. Finally, our
analysis is supported by empirical experiments for an energy scheduling
application.
- Abstract(参考訳): メモリコストによるオンライン最適化には、将来的な入力を知らずにシーケンシャルなアクションが実行される多くの実世界のアプリケーションがある。
それにもかかわらず、メモリコストは時間とともにアクションを結合し、かなりの課題を加えます。
従来、この問題は様々な専門家が設計したオンラインアルゴリズムによって、境界付き最悪のケースの競合比を達成するためにアプローチされてきたが、結果の平均性能はしばしば満足できない。
一方、新興機械学習(ML)ベースのオプティマイザは平均的なパフォーマンスを改善することができるが、最悪のパフォーマンスの堅牢性の欠如に悩まされている。
本稿では,新しいエキスパート・ロバスト学習(ERL)手法を提案し,高い平均性能とロバスト性を実現する。
より具体的には、ロバスト性のために、erlは、エキスパートオンラインアルゴリズムを利用してmlアクションを堅牢化する新しいプロジェクション演算子を導入し、平均パフォーマンスのために、erlは、下流のエキスパートロバスト化を明示的に考慮して、リカレントアーキテクチャに基づいてmlオプティマイザを訓練する。
我々は、任意の$\lambda\geq1$に対して、ERLはエキスパートアルゴリズムに対して$\lambda$-competitiveを、最適なオフラインアルゴリズムに対して$\lambda\cdot C$-competitiveを達成可能であることを証明している。
さらに、我々は分析を複数ステップのメモリコストの新たな設定にまで拡張する。
最後に,エネルギースケジューリングアプリケーションのための実証実験によって解析が支持される。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。
このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T07:38:39Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization [9.449153668916098]
各ラウンド$t$において、プレイヤーが2次的打撃コストと2次攻撃コストに応じてアクション$x_tをプレイし、アクションを切り替えるための2乗$ell$-normコストを加算する、スムーズなオンライン最適化(SOQO)問題について検討する。
この問題クラスは、スマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインと強いつながりを持っています。
本稿では, 最適に近い性能を同時に達成しつつ, 強健な対角性能を得るベスト・オブ・ザ・ワールドス・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T22:59:23Z) - Robust Learning for Smoothed Online Convex Optimization with Feedback
Delay [43.85262428603507]
我々は、新しい機械学習(ML)拡張オンラインアルゴリズム、Robustness-Constrained Learning(RCL)を提案する。
RCLは信頼できないML予測と、制約付きプロジェクションを通じて信頼された専門家のオンラインアルゴリズムを組み合わせることで、ML予測を堅牢化する。
RCLは、マルチステップ切替コストとフィードバック遅延の場合に、証明可能な堅牢性を保証する最初のML拡張アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-31T00:22:55Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Why So Pessimistic? Estimating Uncertainties for Offline RL through
Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。
我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。
D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文 参考訳(メタデータ) (2022-05-27T01:30:12Z) - Expert-Calibrated Learning for Online Optimization with Switching Costs [28.737193318136725]
スイッチングコストによるオンライン凸最適化について検討する。
機械学習(ML)ベースのパワーを取り入れることで、MLに強化されたオンラインアルゴリズムが最先端として現れている。
本稿では,エキスパートキャリブレータを明示的に考慮し,MLに基づくアルゴリズムを訓練するEC-L2Oを提案する。
論文 参考訳(メタデータ) (2022-04-18T21:54:33Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。