論文の概要: Policy Reuse for Communication Load Balancing in Unseen Traffic
Scenarios
- arxiv url: http://arxiv.org/abs/2303.16685v1
- Date: Wed, 22 Mar 2023 22:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:48:52.591919
- Title: Policy Reuse for Communication Load Balancing in Unseen Traffic
Scenarios
- Title(参考訳): 未確認交通シナリオにおける通信負荷分散のための政策再利用
- Authors: Yi Tian Xu, Jimmy Li, Di Wu, Michael Jenkin, Seowoo Jang, Xue Liu, and
Gregory Dudek
- Abstract要約: 強化学習(Reinforcement Learning, RL)に基づく手法は, 従来のルールベース手法と比較して, 優れた性能を示した。
本稿では、ポリシーセレクタが実行すべき最も適切な事前訓練されたRLポリシーを選択する政策再利用フレームワークを提案する。
当社の手法は,多様な交通シナリオに基づいて訓練された政策からなる政策銀行を基盤にしている。
- 参考スコア(独自算出の注目度): 19.698884100311453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous growth in communication network complexity and traffic
volume, communication load balancing solutions are receiving increasing
attention. Specifically, reinforcement learning (RL)-based methods have shown
impressive performance compared with traditional rule-based methods. However,
standard RL methods generally require an enormous amount of data to train, and
generalize poorly to scenarios that are not encountered during training. We
propose a policy reuse framework in which a policy selector chooses the most
suitable pre-trained RL policy to execute based on the current traffic
condition. Our method hinges on a policy bank composed of policies trained on a
diverse set of traffic scenarios. When deploying to an unknown traffic
scenario, we select a policy from the policy bank based on the similarity
between the previous-day traffic of the current scenario and the traffic
observed during training. Experiments demonstrate that this framework can
outperform classical and adaptive rule-based methods by a large margin.
- Abstract(参考訳): 通信ネットワークの複雑さとトラフィックボリュームの継続的な成長に伴い、通信負荷分散ソリューションが注目を集めている。
具体的には、強化学習(RL)に基づく手法は、従来のルールベースの手法に比べて優れた性能を示した。
しかし、標準のRL法は訓練に膨大な量のデータを必要とし、訓練中に遭遇しないシナリオに乏しく一般化する。
本稿では、政策選択者が現在の交通状況に基づいて、最も適切な事前訓練されたRLポリシーを選択する政策再利用フレームワークを提案する。
当社の手法は,多様な交通シナリオに基づいて訓練された政策からなる政策銀行を基盤にしている。
未知のトラフィックシナリオにデプロイする場合、現在のシナリオの前日のトラフィックとトレーニング中に観測されたトラフィックの類似性に基づいて、ポリシーバンクからポリシーを選択する。
実験により、このフレームワークは古典的および適応的ルールベースのメソッドを大きなマージンで上回ることができることが示されている。
関連論文リスト
- Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Intelligent Traffic Light via Policy-based Deep Reinforcement Learning [2.0796717061432]
本研究では,都市移動シミュレータ上での信号制御エージェントの訓練に強化学習を用いる。
政策に基づく深層強化学習手法であるPPO(Proximal Policy Optimization)を利用する。
論文 参考訳(メタデータ) (2021-12-27T18:11:32Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。