Fugu-MT 論文翻訳(概要): Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach

論文の概要: Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach

arxiv url: http://arxiv.org/abs/2310.08660v1
Date: Thu, 12 Oct 2023 18:36:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 15:52:52.867212
Title: Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach
Title（参考訳）: 探索を伴わない共同ビームフォーミングのためのRL-Policiesの学習--Batch Constrained Off-Policy アプローチ
Authors: Heasung Kim and Sravan Ankireddy
Abstract要約: 電力制御率とキャンセル率を最大化するためのネットワークパラメータ干渉最適化の問題点を考察する。行動モデリングの難しさから、現代のコミュニケーションシステムは行動モデリングの難しさで有名である。従来のDQN(Deep-deployment)のようなソリューションとは対照的に,我々はRL学習アルゴリズムを採用する。
参考スコア（独自算出の注目度）: 1.0080317855851213
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this project, we consider the problem of network parameter optimization for rate maximization. We frame this as a joint optimization problem of power control, beam forming, and interference cancellation. We consider the setting where multiple Base Stations (BSs) are communicating with multiple user equipments (UEs). Because of the exponential computational complexity of brute force search, we instead solve this non-convex optimization problem using deep reinforcement learning (RL) techniques. The modern communication systems are notorious for their difficulty in exactly modeling their behaviour. This limits us in using RL based algorithms as interaction with the environment is needed for the agent to explore and learn efficiently. Further, it is ill advised to deploy the algorithm in real world for exploration and learning because of the high cost of failure. In contrast to the previous RL-based solutions proposed, such as deep-Q network (DQN) based control, we propose taking an offline model based approach. We specifically consider discrete batch constrained deep Q-learning (BCQ) and show that performance similar to DQN can be acheived with only a fraction of the data and without the need for exploration. This results in maximizing sample efficiency and minimizing risk in the deployment of a new algorithm to commercial networks. We provide the entire resource of the project, including code and data, at the following link: https://github.com/Heasung-Kim/ safe-rl-deployment-for-5g.
Abstract（参考訳）: 本稿では,レート最大化のためのネットワークパラメータ最適化の問題を考える。我々はこれを、電力制御、ビーム形成、干渉キャンセルの連立最適化問題とみなす。複数の基地局(BS)が複数のユーザ機器(UE)と通信する環境を考える。ブルート力探索の指数関数的計算複雑性のため、より深い強化学習(RL)技術を用いて、この非凸最適化問題を解く。現代の通信システムは、行動を正確にモデル化することが難しいことで悪名高い。これにより、エージェントが効率的に探索し学習するために必要な環境との相互作用として、RLベースのアルゴリズムを使用することが制限される。さらに、失敗のコストが高いため、探索と学習のために現実世界にアルゴリズムをデプロイすることが不適切である。ディープQネットワーク(DQN)ベースの制御など,従来のRLベースのソリューションとは対照的に,オフラインモデルベースのアプローチを提案する。具体的には、離散バッチ制約深度Q-ラーニング(BCQ)について検討し、DQNに類似した性能は、データのごく一部で、探索を必要とせずに実現可能であることを示す。その結果、サンプル効率を最大化し、新しいアルゴリズムを商用ネットワークに展開するリスクを最小化する。コードとデータを含むプロジェクトのリソース全体を、以下のリンクで提供します。

関連論文リスト

Resilient UAV Trajectory Planning via Few-Shot Meta-Offline Reinforcement Learning [5.771885923067511]
本研究は、オフラインRLとモデルに依存しないメタ学習を組み合わせた、新しい、レジリエントで、少数ショットのメタオフラインRLアルゴリズムを提案する。提案する数ショットメタオフラインRLアルゴリズムは,ベースライン方式よりも高速に収束することを示す。オフラインデータセットを使用して最適な共同AoIと送信パワーを達成できる唯一のアルゴリズムである。
論文参考訳（メタデータ） (2025-02-03T11:39:12Z)
GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文参考訳（メタデータ） (2024-12-11T11:13:43Z)
Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。 LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。 LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文参考訳（メタデータ） (2024-05-12T02:38:58Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB networks [0.0]
統合アクセスとバックハウリング(IRL)は、将来の世代におけるより高いデータレートに対する前例のない要求を満たすための、実行可能なアプローチである。本稿では,分数ノードに付随する巨大なアクション空間の問題を,Deep Q-Learning Networkを用いて処理する方法を示す。
論文参考訳（メタデータ） (2023-08-31T21:30:25Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文参考訳（メタデータ） (2022-07-05T20:42:24Z)
Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文参考訳（メタデータ） (2022-01-26T20:43:13Z)
RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。 RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。 RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文参考訳（メタデータ） (2021-09-16T21:30:40Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-27T17:38:51Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。