論文の概要: Offline Reinforcement Learning for Mobility Robustness Optimization
- arxiv url: http://arxiv.org/abs/2506.22793v1
- Date: Sat, 28 Jun 2025 07:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.571454
- Title: Offline Reinforcement Learning for Mobility Robustness Optimization
- Title(参考訳): モビリティロバストネス最適化のためのオフライン強化学習
- Authors: Pegah Alizadeh, Anastasios Giovanidis, Pradeepa Ramachandra, Vasileios Koutsoukis, Osama Arouk,
- Abstract要約: 我々は、モビリティロバストネス最適化アルゴリズムを再検討し、オフライン強化学習を用いて最適なセル個別オフセットチューニングを学習する可能性について検討する。
このような手法では、収集されたオフラインデータセットを使用して最適なポリシーを学習するが、さらなる探索は行わない。
我々は,決定変換器(Decision Transformer)と呼ばれるシーケンスベースの手法と,保守的Qラーニング(Reserve Q-Learning)と呼ばれる価値ベースの手法を適用し,バニラ規則に基づくMROと同じ目標報酬に対する最適ポリシーを学習する。
- 参考スコア(独自算出の注目度): 3.7164203452531233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we revisit the Mobility Robustness Optimisation (MRO) algorithm and study the possibility of learning the optimal Cell Individual Offset tuning using offline Reinforcement Learning. Such methods make use of collected offline datasets to learn the optimal policy, without further exploration. We adapt and apply a sequence-based method called Decision Transformers as well as a value-based method called Conservative Q-Learning to learn the optimal policy for the same target reward as the vanilla rule-based MRO. The same input features related to failures, ping-pongs, and other handover issues are used. Evaluation for realistic New Radio networks with 3500 MHz carrier frequency on a traffic mix including diverse user service types and a specific tunable cell-pair shows that offline-RL methods outperform rule-based MRO, offering up to 7% improvement. Furthermore, offline-RL can be trained for diverse objective functions using the same available dataset, thus offering operational flexibility compared to rule-based methods.
- Abstract(参考訳): 本研究では、モビリティロバストネス最適化(MRO)アルゴリズムを再検討し、オフライン強化学習を用いて最適なセル個別オフセットチューニングを学習する可能性について検討する。
このような手法では、収集されたオフラインデータセットを使用して最適なポリシーを学習するが、さらなる探索は行わない。
我々は,決定変換器(Decision Transformer)と呼ばれるシーケンスベースの手法と,保守的Qラーニング(Reserve Q-Learning)と呼ばれる価値ベースの手法を適用し,バニラ規則に基づくMROと同じ目標報酬に対する最適ポリシーを学習する。
障害やping-pongs、その他のハンドオーバ問題に関連するのと同じ入力機能を使用する。
多様なユーザサービスタイプと特定のチューニング可能なセルペアを含むトラフィックミックス上で3500MHzのキャリア周波数を持つリアルなニューラジオネットワークの評価は、オフラインRLメソッドがルールベースのMROより優れ、最大7%改善されていることを示している。
さらに、オフラインRLは、同じ利用可能なデータセットを使用して、さまざまな客観的関数のためにトレーニングできるため、ルールベースのメソッドと比較して、運用上の柔軟性を提供する。
関連論文リスト
- Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用する。
オフラインデータセットで同じように振る舞う様々なMDPがあり、真のMDPに関する不確実性を扱うことは困難である。
本稿では,BAMDP(Bayes Adaptive Markov Decision Process)としてオフラインMBRLのモデル化を提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。