論文の概要: Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach
- arxiv url: http://arxiv.org/abs/2310.08660v2
- Date: Sat, 11 Nov 2023 14:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:13:58.883546
- Title: Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach
- Title(参考訳): 探索を伴わない共同ビームフォーミングのためのRL-Policiesの学習--Batch Constrained Off-Policy アプローチ
- Authors: Heasung Kim and Sravan Kumar Ankireddy
- Abstract要約: 本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
- 参考スコア(独自算出の注目度): 1.0080317855851213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we consider the problem of network parameter optimization for
rate maximization. We frame this as a joint optimization problem of power
control, beam forming, and interference cancellation. We consider the setting
where multiple Base Stations (BSs) communicate with multiple user equipment
(UEs). Because of the exponential computational complexity of brute force
search, we instead solve this nonconvex optimization problem using deep
reinforcement learning (RL) techniques. Modern communication systems are
notorious for their difficulty in exactly modeling their behavior. This limits
us in using RL-based algorithms as interaction with the environment is needed
for the agent to explore and learn efficiently. Further, it is ill-advised to
deploy the algorithm in the real world for exploration and learning because of
the high cost of failure. In contrast to the previous RL-based solutions
proposed, such as deep-Q network (DQN) based control, we suggest an offline
model-based approach. We specifically consider discrete batch-constrained deep
Q-learning (BCQ) and show that performance similar to DQN can be achieved with
only a fraction of the data without exploring. This maximizes sample efficiency
and minimizes risk in deploying a new algorithm to commercial networks. We
provide the entire project resource, including code and data, at the following
link: https://github.com/Heasung-Kim/ safe-rl-deployment-for-5g.
- Abstract(参考訳): 本研究では,レート最大化のためのネットワークパラメータ最適化の問題を考える。
我々はこれを、電力制御、ビーム形成、干渉キャンセルの連立最適化問題とみなす。
複数の基地局(BS)が複数のユーザ機器(UE)と通信する環境を考える。
ブルート力探索の指数関数的計算複雑性のため、深部強化学習(RL)技術を用いて、この非凸最適化問題を解く。
現代の通信システムは、行動を正確にモデル化することが難しいことで悪名高い。
これにより、エージェントが効率的に探索し学習するために必要な環境との相互作用として、RLベースのアルゴリズムを使用することが制限される。
さらに、失敗のコストが高いため、探索と学習のために現実世界にアルゴリズムをデプロイすることが不適当である。
ディープQネットワーク(DQN)ベースの制御など,従来のRLベースのソリューションとは対照的に,オフラインモデルベースのアプローチを提案する。
具体的には、離散バッチ制約深度Q-ラーニング(BCQ)について検討し、DQNに類似した性能を探索することなく、少数のデータで実現できることを示す。
これはサンプル効率を最大化し、商用ネットワークに新しいアルゴリズムをデプロイするリスクを最小化する。
https://github.com/Heasung-Kim/ safe-rl-deployment-for-5g.com/ のリンクで、コードとデータを含むプロジェクトリソース全体を提供します。
関連論文リスト
- Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB
networks [0.0]
統合アクセスとバックハウリング(IRL)は、将来の世代におけるより高いデータレートに対する前例のない要求を満たすための、実行可能なアプローチである。
本稿では,分数ノードに付随する巨大なアクション空間の問題を,Deep Q-Learning Networkを用いて処理する方法を示す。
論文 参考訳(メタデータ) (2023-08-31T21:30:25Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。