論文の概要: Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach
- arxiv url: http://arxiv.org/abs/2310.08660v1
- Date: Thu, 12 Oct 2023 18:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:52:52.867212
- Title: Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach
- Title(参考訳): 探索を伴わない共同ビームフォーミングのためのRL-Policiesの学習--Batch Constrained Off-Policy アプローチ
- Authors: Heasung Kim and Sravan Ankireddy
- Abstract要約: 電力制御率とキャンセル率を最大化するためのネットワークパラメータ干渉最適化の問題点を考察する。
行動モデリングの難しさから、現代のコミュニケーションシステムは行動モデリングの難しさで有名である。
従来のDQN(Deep-deployment)のようなソリューションとは対照的に,我々はRL学習アルゴリズムを採用する。
- 参考スコア(独自算出の注目度): 1.0080317855851213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this project, we consider the problem of network parameter optimization
for rate maximization. We frame this as a joint optimization problem of power
control, beam forming, and interference cancellation. We consider the setting
where multiple Base Stations (BSs) are communicating with multiple user
equipments (UEs). Because of the exponential computational complexity of brute
force search, we instead solve this non-convex optimization problem using deep
reinforcement learning (RL) techniques. The modern communication systems are
notorious for their difficulty in exactly modeling their behaviour. This limits
us in using RL based algorithms as interaction with the environment is needed
for the agent to explore and learn efficiently. Further, it is ill advised to
deploy the algorithm in real world for exploration and learning because of the
high cost of failure. In contrast to the previous RL-based solutions proposed,
such as deep-Q network (DQN) based control, we propose taking an offline model
based approach. We specifically consider discrete batch constrained deep
Q-learning (BCQ) and show that performance similar to DQN can be acheived with
only a fraction of the data and without the need for exploration. This results
in maximizing sample efficiency and minimizing risk in the deployment of a new
algorithm to commercial networks. We provide the entire resource of the
project, including code and data, at the following link:
https://github.com/Heasung-Kim/ safe-rl-deployment-for-5g.
- Abstract(参考訳): 本稿では,レート最大化のためのネットワークパラメータ最適化の問題を考える。
我々はこれを、電力制御、ビーム形成、干渉キャンセルの連立最適化問題とみなす。
複数の基地局(BS)が複数のユーザ機器(UE)と通信する環境を考える。
ブルート力探索の指数関数的計算複雑性のため、より深い強化学習(RL)技術を用いて、この非凸最適化問題を解く。
現代の通信システムは、行動を正確にモデル化することが難しいことで悪名高い。
これにより、エージェントが効率的に探索し学習するために必要な環境との相互作用として、RLベースのアルゴリズムを使用することが制限される。
さらに、失敗のコストが高いため、探索と学習のために現実世界にアルゴリズムをデプロイすることが不適切である。
ディープQネットワーク(DQN)ベースの制御など,従来のRLベースのソリューションとは対照的に,オフラインモデルベースのアプローチを提案する。
具体的には、離散バッチ制約深度Q-ラーニング(BCQ)について検討し、DQNに類似した性能は、データのごく一部で、探索を必要とせずに実現可能であることを示す。
その結果、サンプル効率を最大化し、新しいアルゴリズムを商用ネットワークに展開するリスクを最小化する。
コードとデータを含むプロジェクトのリソース全体を、以下のリンクで提供します。
関連論文リスト
- Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB
networks [0.0]
統合アクセスとバックハウリング(IRL)は、将来の世代におけるより高いデータレートに対する前例のない要求を満たすための、実行可能なアプローチである。
本稿では,分数ノードに付随する巨大なアクション空間の問題を,Deep Q-Learning Networkを用いて処理する方法を示す。
論文 参考訳(メタデータ) (2023-08-31T21:30:25Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。