論文の概要: Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach
- arxiv url: http://arxiv.org/abs/2201.02169v1
- Date: Thu, 6 Jan 2022 18:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-01-07 15:41:12.742610
- Title: Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach
- Title(参考訳): 最適アンテナティルト制御法を学習する:コンテキスト線形帯域アプローチ
- Authors: Filippo Vannella, Alexandre Proutiere, Yassir Jedra, Jaeseong Jeong
- Abstract要約: セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
- 参考スコア(独自算出の注目度): 65.27783264330711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling antenna tilts in cellular networks is imperative to reach an
efficient trade-off between network coverage and capacity. In this paper, we
devise algorithms learning optimal tilt control policies from existing data (in
the so-called passive learning setting) or from data actively generated by the
algorithms (the active learning setting). We formalize the design of such
algorithms as a Best Policy Identification (BPI) problem in Contextual Linear
Multi-Arm Bandits (CL-MAB). An arm represents an antenna tilt update; the
context captures current network conditions; the reward corresponds to an
improvement of performance, mixing coverage and capacity; and the objective is
to identify, with a given level of confidence, an approximately optimal policy
(a function mapping the context to an arm with maximal reward). For CL-MAB in
both active and passive learning settings, we derive information-theoretical
lower bounds on the number of samples required by any algorithm returning an
approximately optimal policy with a given level of certainty, and devise
algorithms achieving these fundamental limits. We apply our algorithms to the
Remote Electrical Tilt (RET) optimization problem in cellular networks, and
show that they can produce optimal tilt update policy using much fewer data
samples than naive or existing rule-based learning algorithms.
- Abstract(参考訳): セルネットワークにおけるアンテナ傾きの制御は、ネットワークカバレッジとキャパシティの効率的なトレードオフに到達するために不可欠である。
本稿では、既存のデータ(受動的学習設定)やアルゴリズム(アクティブ学習設定)によってアクティブに生成されたデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
CL-MABにおけるBest Policy Identification (BPI)問題として,このようなアルゴリズムの設計を定式化する。
armはアンテナの傾き更新を表し、コンテキストは現在のネットワーク条件をキャプチャし、報酬はパフォーマンスの向上、カバレッジとキャパシティの混合に対応し、その目的は、与えられたレベルの信頼度で、ほぼ最適なポリシー(コンテキストを最大報酬でarmにマッピングする機能)を特定することである。
CL-MABをアクティブ・パッシブ・ラーニング・セッティングの両方で用いる場合、任意のアルゴリズムが所定の精度でほぼ最適なポリシーを返却するために必要なサンプル数に基づいて情報理論の下限を導出し、これらの基本的な限界を達成するアルゴリズムを考案する。
提案アルゴリズムはセルラーネットワークにおける遠隔電気ティルト(RET)最適化問題に適用し,従来のルールベース学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成可能であることを示す。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Multi-agent Reinforcement Learning with Graph Q-Networks for Antenna
Tuning [60.94661435297309]
モバイルネットワークの規模は、手作業による介入や手作業による戦略を使ってアンテナパラメータの最適化を困難にしている。
本研究では,モバイルネットワーク構成をグローバルに最適化するマルチエージェント強化学習アルゴリズムを提案する。
シミュレーション環境におけるアンテナ傾き調整問題とジョイント傾き・電力制御問題に対するアルゴリズムの性能を実証的に示す。
論文 参考訳(メタデータ) (2023-01-20T17:06:34Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Approximate Midpoint Policy Iteration for Linear Quadratic Control [1.0312968200748118]
モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
論文 参考訳(メタデータ) (2020-11-28T20:22:10Z) - Off-policy Learning for Remote Electrical Tilt Optimization [68.8204255655161]
本稿では,オフポリティクス型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の課題に対処する。
データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。
当社のポリシでは,データ収集に使用されるルールベースのロギングポリシに対して,一貫した改善が示されています。
論文 参考訳(メタデータ) (2020-05-21T11:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。