論文の概要: Off-policy Learning for Remote Electrical Tilt Optimization
- arxiv url: http://arxiv.org/abs/2005.10577v1
- Date: Thu, 21 May 2020 11:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 22:43:45.395823
- Title: Off-policy Learning for Remote Electrical Tilt Optimization
- Title(参考訳): 遠隔電気傾き最適化のためのオフポリシー学習
- Authors: Filippo Vannella, Jaeseong Jeong, Alexandre Proutiere
- Abstract要約: 本稿では,オフポリティクス型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の課題に対処する。
データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。
当社のポリシでは,データ収集に使用されるルールベースのロギングポリシに対して,一貫した改善が示されています。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of Remote Electrical Tilt (RET) optimization using
off-policy Contextual Multi-Armed-Bandit (CMAB) techniques. The goal in RET
optimization is to control the orientation of the vertical tilt angle of the
antenna to optimize Key Performance Indicators (KPIs) representing the Quality
of Service (QoS) perceived by the users in cellular networks. Learning an
improved tilt update policy is hard. On the one hand, coming up with a new
policy in an online manner in a real network requires exploring tilt updates
that have never been used before, and is operationally too risky. On the other
hand, devising this policy via simulations suffers from the
simulation-to-reality gap. In this paper, we circumvent these issues by
learning an improved policy in an offline manner using existing data collected
on real networks. We formulate the problem of devising such a policy using the
off-policy CMAB framework. We propose CMAB learning algorithms to extract
optimal tilt update policies from the data. We train and evaluate these
policies on real-world 4G Long Term Evolution (LTE) cellular network data. Our
policies show consistent improvements over the rule-based logging policy used
to collect the data.
- Abstract(参考訳): 本稿では,遠隔型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の問題に対処する。
RET最適化の目標は、アンテナの垂直傾き角度の向きを制御し、携帯電話ネットワークのユーザが知覚するQuality of Service(QoS)を表すキーパフォーマンス指標(KPI)を最適化することである。
改良されたtilt updateポリシーを学ぶのは難しい。
一方で、実際のネットワークでオンライン方式で新しいポリシーを思いつくには、これまで使われてこなかったティルト更新の探索が必要であり、運用上のリスクが高すぎる。
一方、シミュレーションによるこのポリシーの策定は、シミュレーションと現実のギャップに悩まされている。
本稿では,実ネットワーク上で収集した既存データを用いてオフラインで改善ポリシーを学習することで,これらの問題を回避した。
政治以外のCMABフレームワークを用いた政策策定の課題を定式化する。
データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。
我々は、実世界の4G長期進化(LTE)セルネットワークデータに基づいて、これらのポリシーを訓練し、評価する。
我々のポリシーは、データ収集に使用されるルールベースのロギングポリシーに対して一貫した改善を示しています。
関連論文リスト
- Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。