論文の概要: Communication Load Balancing via Efficient Inverse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.16686v1
- Date: Wed, 22 Mar 2023 22:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:49:12.990371
- Title: Communication Load Balancing via Efficient Inverse Reinforcement
Learning
- Title(参考訳): 効率的な逆強化学習による通信負荷分散
- Authors: Abhisek Konar, Di Wu, Yi Tian Xu, Seowoo Jang, Steve Liu, Gregory
Dudek
- Abstract要約: 本研究では、逆強化学習(IRL)アプローチによる通信負荷分散問題に取り組む。
我々は,一連の実演から報酬関数を推定し,推論された報酬関数を用いて強化学習負荷バランスポリシーを学習する。
古典的なRLベースのソリューションと比較して、提案されたソリューションはより汎用的で現実のシナリオに適している。
- 参考スコア(独自算出の注目度): 13.052338083552863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication load balancing aims to balance the load between different
available resources, and thus improve the quality of service for network
systems. After formulating the load balancing (LB) as a Markov decision process
problem, reinforcement learning (RL) has recently proven effective in
addressing the LB problem. To leverage the benefits of classical RL for load
balancing, however, we need an explicit reward definition. Engineering this
reward function is challenging, because it involves the need for expert
knowledge and there lacks a general consensus on the form of an optimal reward
function. In this work, we tackle the communication load balancing problem from
an inverse reinforcement learning (IRL) approach. To the best of our knowledge,
this is the first time IRL has been successfully applied in the field of
communication load balancing. Specifically, first, we infer a reward function
from a set of demonstrations, and then learn a reinforcement learning load
balancing policy with the inferred reward function. Compared to classical
RL-based solution, the proposed solution can be more general and more suitable
for real-world scenarios. Experimental evaluations implemented on different
simulated traffic scenarios have shown our method to be effective and better
than other baselines by a considerable margin.
- Abstract(参考訳): 通信負荷分散は、利用可能なリソース間の負荷のバランスをとり、ネットワークシステムのサービス品質を向上させることを目的としている。
負荷分散 (LB) をマルコフ決定過程問題として定式化した後, 強化学習 (RL) は近年, LB問題に対処する上で有効であることが証明されている。
しかし、負荷分散に古典的なRLの利点を利用するには、明確な報酬定義が必要である。
この報酬関数のエンジニアリングは、専門家の知識を必要とし、最適な報酬関数の形式に関する一般的なコンセンサスが欠如しているため、難しい。
本研究では,irl(逆強化学習)アプローチによる通信負荷分散問題に取り組む。
我々の知る限りでは、IRLが通信負荷分散の分野で成功しているのはこれが初めてである。
具体的には、まず、一連の実演から報酬関数を推定し、次に、推定報酬関数を用いて強化学習負荷バランスポリシーを学習する。
古典的なRLベースのソリューションと比較して、提案されたソリューションはより汎用的で現実のシナリオに適している。
異なるシミュレーショントラヒックシナリオで実施した実験評価により,本手法は実効性が高く,他のベースラインよりもかなり優れていることが示された。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Reinforcement Learning-Based Adaptive Load Balancing for Dynamic Cloud Environments [0.0]
これらの課題に対処するために,Reinforcement Learning (RL) を用いた適応型ロードバランシングフレームワークを提案する。
我々のフレームワークは、タスクを動的に再配置し、レイテンシを最小化し、サーバ間のリソース利用のバランスを確保するように設計されています。
実験の結果,提案したRLベースのロードバランサは,応答時間,資源利用量,ワークロードの変化に対する適応性などの観点から,従来のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-07T19:40:48Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Toward Computationally Efficient Inverse Reinforcement Learning via
Reward Shaping [42.09724642733125]
この研究は、各RLサブプロブレムの計算負担を軽減するために、ポテンシャルベースの報酬形成の利用を動機付けている。
本研究は概念実証として機能し,計算効率の高いIRLに向けた今後の発展を期待する。
論文 参考訳(メタデータ) (2023-12-15T17:50:18Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。