論文の概要: A Lyapunov Drift-Plus-Penalty Method Tailored for Reinforcement Learning with Queue Stability
- arxiv url: http://arxiv.org/abs/2506.04291v1
- Date: Wed, 04 Jun 2025 10:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.331927
- Title: A Lyapunov Drift-Plus-Penalty Method Tailored for Reinforcement Learning with Queue Stability
- Title(参考訳): Lyapunov Drift-Plus-Penalty法による待ち行列安定度強化学習
- Authors: Wenhan Xu, Jiashuo Jiang, Lei Deng, Danny Hin-Kwok Tsang,
- Abstract要約: 本稿では,Lyapunov Drift-Plus-Penaltyアルゴリズムの強化学習への応用について検討する。
提案アルゴリズムは,リアプノフ・ドリフト・プルス・ペナルティのグリーディ最適化とRLの長期的視点を効果的にバランスさせることにより理論的優位性を提供する。
- 参考スコア(独自算出の注目度): 7.359722946713891
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the proliferation of Internet of Things (IoT) devices, the demand for addressing complex optimization challenges has intensified. The Lyapunov Drift-Plus-Penalty algorithm is a widely adopted approach for ensuring queue stability, and some research has preliminarily explored its integration with reinforcement learning (RL). In this paper, we investigate the adaptation of the Lyapunov Drift-Plus-Penalty algorithm for RL applications, deriving an effective method for combining Lyapunov Drift-Plus-Penalty with RL under a set of common and reasonable conditions through rigorous theoretical analysis. Unlike existing approaches that directly merge the two frameworks, our proposed algorithm, termed Lyapunov drift-plus-penalty method tailored for reinforcement learning with queue stability (LDPTRLQ) algorithm, offers theoretical superiority by effectively balancing the greedy optimization of Lyapunov Drift-Plus-Penalty with the long-term perspective of RL. Simulation results for multiple problems demonstrate that LDPTRLQ outperforms the baseline methods using the Lyapunov drift-plus-penalty method and RL, corroborating the validity of our theoretical derivations. The results also demonstrate that our proposed algorithm outperforms other benchmarks in terms of compatibility and stability.
- Abstract(参考訳): モノのインターネット(IoT)デバイスの普及に伴い、複雑な最適化課題に対処する需要が高まっている。
Lyapunov Drift-Plus-Penaltyアルゴリズムは、待ち行列安定性を確保するために広く採用されている手法であり、いくつかの研究は、その強化学習(RL)との統合を予め検討している。
本稿では, リアプノフ・ドリフト・プルス・ペナルティ法をRL応用に適用し, 厳密な理論的解析により, 共通かつ合理的な条件下でのリアプノフ・ドリフト・プルス・ペナルティとRLを効果的に組み合わせる手法を提案する。
この2つのフレームワークを直接マージする従来の手法とは違い,Lyapunov Drift-Plus-Penaltyのグリーディ最適化とRLの長期的視点を効果的にバランスさせることにより,強化学習と待ち行列安定性(LDPTRLQ)アルゴリズムを併用したLyapunov drift-plus-penalty法というアルゴリズムが理論的優位性を提供する。
複数の問題に対するシミュレーションの結果, LDPTRLQ は Lyapunov drift-plus-penalty 法と RL 法を用いてベースライン法より優れており, 理論的導出の有効性を裏付けるものである。
また,提案アルゴリズムは,互換性と安定性の点で,他のベンチマークよりも優れていることを示す。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Asynchronous Parallel Reinforcement Learning for Optimizing Propulsive
Performance in Fin Ray Control [3.889677386753812]
魚のひれは、万能な移動を促進するために、魚のひれを固定した魚の高度な制御システムを構成する。
魚の移動のキネマティクスと流体力学の広範な研究にもかかわらず、フィン線運動における複雑な制御戦略はほとんど解明されていない。
本研究では,様々な推進性能目標に適した複雑なフィン線制御戦略を得るために,流体構造相互作用(FSI)環境と相互作用する最先端のオフポリチックDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-21T00:06:17Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z) - A Reinforcement Learning Formulation of the Lyapunov Optimization:
Application to Edge Computing Systems with Queue Stability [12.693545159861857]
Lyapunov最適化に対する深層強化学習(DRL)に基づくアプローチは,待ち行列安定性を維持しながら平均値のペナルティを最小化すると考えられる。
DRLに基づくRL手法は,待ち行列安定性を持つエッジコンピューティングシステムにおける資源配分に適用され,数値計算によりその動作が成功したことを示す。
論文 参考訳(メタデータ) (2020-12-14T05:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。