Fugu-MT 論文翻訳(概要): Robustified Learning for Online Optimization with Memory Costs

論文の概要: Robustified Learning for Online Optimization with Memory Costs

arxiv url: http://arxiv.org/abs/2305.00677v1
Date: Mon, 1 May 2023 06:12:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 13:51:25.988137
Title: Robustified Learning for Online Optimization with Memory Costs
Title（参考訳）: メモリコストを考慮したオンライン最適化のためのロバスト化学習
Authors: Pengfei Li, Jianyi Yang, Shaolei Ren
Abstract要約: 本稿では,高い平均性能とロバスト性を両立する,新しいエキスパート・ロバスト学習(ERL)手法を提案する。任意の$lambdageq1$に対して、ERLはエキスパートアルゴリズムに対して$lambda$-competitive、最適なオフラインアルゴリズムに対して$lambdacdot C$-competitiveを達成することができる。
参考スコア（独自算出の注目度）: 28.737193318136725
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Online optimization with memory costs has many real-world applications, where sequential actions are made without knowing the future input. Nonetheless, the memory cost couples the actions over time, adding substantial challenges. Conventionally, this problem has been approached by various expert-designed online algorithms with the goal of achieving bounded worst-case competitive ratios, but the resulting average performance is often unsatisfactory. On the other hand, emerging machine learning (ML) based optimizers can improve the average performance, but suffer from the lack of worst-case performance robustness. In this paper, we propose a novel expert-robustified learning (ERL) approach, achieving {both} good average performance and robustness. More concretely, for robustness, ERL introduces a novel projection operator that robustifies ML actions by utilizing an expert online algorithm; for average performance, ERL trains the ML optimizer based on a recurrent architecture by explicitly considering downstream expert robustification. We prove that, for any $\lambda\geq1$, ERL can achieve $\lambda$-competitive against the expert algorithm and $\lambda\cdot C$-competitive against the optimal offline algorithm (where $C$ is the expert's competitive ratio). Additionally, we extend our analysis to a novel setting of multi-step memory costs. Finally, our analysis is supported by empirical experiments for an energy scheduling application.
Abstract（参考訳）: メモリコストによるオンライン最適化には、将来的な入力を知らずにシーケンシャルなアクションが実行される多くの実世界のアプリケーションがある。それにもかかわらず、メモリコストは時間とともにアクションを結合し、かなりの課題を加えます。従来、この問題は様々な専門家が設計したオンラインアルゴリズムによって、境界付き最悪のケースの競合比を達成するためにアプローチされてきたが、結果の平均性能はしばしば満足できない。一方、新興機械学習(ML)ベースのオプティマイザは平均的なパフォーマンスを改善することができるが、最悪のパフォーマンスの堅牢性の欠如に悩まされている。本稿では,新しいエキスパート・ロバスト学習(ERL)手法を提案し,高い平均性能とロバスト性を実現する。より具体的には、ロバスト性のために、erlは、エキスパートオンラインアルゴリズムを利用してmlアクションを堅牢化する新しいプロジェクション演算子を導入し、平均パフォーマンスのために、erlは、下流のエキスパートロバスト化を明示的に考慮して、リカレントアーキテクチャに基づいてmlオプティマイザを訓練する。我々は、任意の$\lambda\geq1$に対して、ERLはエキスパートアルゴリズムに対して$\lambda$-competitiveを、最適なオフラインアルゴリズムに対して$\lambda\cdot C$-competitiveを達成可能であることを証明している。さらに、我々は分析を複数ステップのメモリコストの新たな設定にまで拡張する。最後に,エネルギースケジューリングアプリケーションのための実証実験によって解析が支持される。

関連論文リスト

Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-17T15:38:33Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文参考訳（メタデータ） (2024-05-28T07:38:39Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization [9.449153668916098]
各ラウンド$t$において、プレイヤーが2次的打撃コストと2次攻撃コストに応じてアクション$x_tをプレイし、アクションを切り替えるための2乗$ell$-normコストを加算する、スムーズなオンライン最適化(SOQO)問題について検討する。この問題クラスは、スマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインと強いつながりを持っています。本稿では, 最適に近い性能を同時に達成しつつ, 強健な対角性能を得るベスト・オブ・ザ・ワールドス・アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-31T22:59:23Z)
Robust Learning for Smoothed Online Convex Optimization with Feedback Delay [43.85262428603507]
我々は、新しい機械学習(ML)拡張オンラインアルゴリズム、Robustness-Constrained Learning(RCL)を提案する。 RCLは信頼できないML予測と、制約付きプロジェクションを通じて信頼された専門家のオンラインアルゴリズムを組み合わせることで、ML予測を堅牢化する。 RCLは、マルチステップ切替コストとフィードバック遅延の場合に、証明可能な堅牢性を保証する最初のML拡張アルゴリズムである。
論文参考訳（メタデータ） (2023-10-31T00:22:55Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。 D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文参考訳（メタデータ） (2022-05-27T01:30:12Z)
Expert-Calibrated Learning for Online Optimization with Switching Costs [28.737193318136725]
スイッチングコストによるオンライン凸最適化について検討する。機械学習(ML)ベースのパワーを取り入れることで、MLに強化されたオンラインアルゴリズムが最先端として現れている。本稿では,エキスパートキャリブレータを明示的に考慮し,MLに基づくアルゴリズムを訓練するEC-L2Oを提案する。
論文参考訳（メタデータ） (2022-04-18T21:54:33Z)
Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文参考訳（メタデータ） (2021-03-23T20:46:20Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文参考訳（メタデータ） (2021-01-17T04:55:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。