論文の概要: A Reinforcement Learning Formulation of the Lyapunov Optimization:
Application to Edge Computing Systems with Queue Stability
- arxiv url: http://arxiv.org/abs/2012.07279v2
- Date: Tue, 15 Dec 2020 11:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:21:54.704483
- Title: A Reinforcement Learning Formulation of the Lyapunov Optimization:
Application to Edge Computing Systems with Queue Stability
- Title(参考訳): Lyapunov最適化の強化学習定式化:キュー安定性を持つエッジコンピューティングシステムへの適用
- Authors: Sohee Bae, Seungyul Han, and Youngchul Sung
- Abstract要約: Lyapunov最適化に対する深層強化学習(DRL)に基づくアプローチは,待ち行列安定性を維持しながら平均値のペナルティを最小化すると考えられる。
DRLに基づくRL手法は,待ち行列安定性を持つエッジコンピューティングシステムにおける資源配分に適用され,数値計算によりその動作が成功したことを示す。
- 参考スコア(独自算出の注目度): 12.693545159861857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a deep reinforcement learning (DRL)-based approach to the
Lyapunov optimization is considered to minimize the time-average penalty while
maintaining queue stability. A proper construction of state and action spaces
is provided to form a proper Markov decision process (MDP) for the Lyapunov
optimization. A condition for the reward function of reinforcement learning
(RL) for queue stability is derived. Based on the analysis and practical RL
with reward discounting, a class of reward functions is proposed for the
DRL-based approach to the Lyapunov optimization. The proposed DRL-based
approach to the Lyapunov optimization does not required complicated
optimization at each time step and operates with general non-convex and
discontinuous penalty functions. Hence, it provides an alternative to the
conventional drift-plus-penalty (DPP) algorithm for the Lyapunov optimization.
The proposed DRL-based approach is applied to resource allocation in edge
computing systems with queue stability and numerical results demonstrate its
successful operation.
- Abstract(参考訳): 本稿では,lyapunov最適化に対する深層強化学習(drl)に基づく手法を,待ち行列安定性を維持しながら平均時間ペナルティを最小化する。
状態空間と作用空間の適切な構成は、リャプノフ最適化のための適切なマルコフ決定過程(MDP)を形成するために提供される。
待ち行列安定性のための強化学習(RL)の報奨関数の条件を導出する。
Lyapunov 最適化に対する DRL に基づくアプローチでは,報酬割引を伴う実効的な RL のクラスが提案されている。
Lyapunov最適化に対するDRLに基づくアプローチは、各ステップで複雑な最適化を必要とせず、一般的な非凸かつ不連続なペナルティ関数で動作する。
したがって、ライプノフ最適化のための従来のドリフトプラスペナルティ(dpp)アルゴリズムに代わるものである。
提案手法は,キュー安定性を持つエッジコンピューティングシステムにおけるリソース割り当てに適用し,その動作を数値的に検証する。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。
学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。
提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-08-27T19:04:32Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - A Reinforcement Learning Approach to Parameter Selection for Distributed
Optimization in Power Systems [1.1199585259018459]
本稿では,ADMMによるAC最適電力流(ACOPF)問題に対する適応的ペナルティパラメータ選択ポリシーを開発する。
我々のRLポリシは一般化可能性の保証を示し、見知らぬロードスキームの下では良好に機能し、ラインやジェネレータの目に見えない損失の下でも機能することを示す。
この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。
論文 参考訳(メタデータ) (2021-10-22T18:17:32Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization [1.7970523486905976]
本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-27T08:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。