論文の概要: Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration
- arxiv url: http://arxiv.org/abs/2108.10352v1
- Date: Mon, 23 Aug 2021 18:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:07:23.958350
- Title: Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration
- Title(参考訳): 行動空間探索による無線システムの最適決定性資源配分のモデル自由学習
- Authors: Hassaan Hashmi and Dionysios S. Kalogerias
- Abstract要約: 本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
- 参考スコア(独自算出の注目度): 4.721069729610892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wireless systems resource allocation refers to perpetual and challenging
nonconvex constrained optimization tasks, which are especially timely in modern
communications and networking setups involving multiple users with
heterogeneous objectives and imprecise or even unknown models and/or channel
statistics. In this paper, we propose a technically grounded and scalable
primal-dual deterministic policy gradient method for efficiently learning
optimal parameterized resource allocation policies. Our method not only
efficiently exploits gradient availability of popular universal policy
representations, such as deep neural networks, but is also truly model-free, as
it relies on consistent zeroth-order gradient approximations of the associated
random network services constructed via low-dimensional perturbations in action
space, thus fully bypassing any dependence on critics. Both theory and
numerical simulations confirm the efficacy and applicability of the proposed
approach, as well as its superiority over the current state of the art in terms
of both achieving near-optimal performance and scalability.
- Abstract(参考訳): ワイヤレスシステムのリソース割り当ては、永続的で挑戦的な非凸制約付き最適化タスクを指しており、特に、不均一な目的と不正確あるいは未知のモデルやチャネル統計を持つ複数のユーザを含む現代の通信およびネットワーク設定においてタイムリーである。
本稿では,最適パラメータ化資源割り当てポリシーを効率よく学習するための,技術的基盤と拡張性のある原始双対決定性ポリシー勾配法を提案する。
提案手法は,深層ニューラルネットワークなどの一般的な普遍的政策表現の勾配を効率よく活用するだけでなく,行動空間の低次元摂動によって構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため,真のモデルフリーである。
理論と数値シミュレーションの両方が提案手法の有効性と適用性を確認し、ほぼ最適性能とスケーラビリティの両面において現在の技術よりも優れていることを証明している。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Introduction to Online Nonstochastic Control [65.18774760752588]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Resource Allocation via Graph Neural Networks in Free Space Optical
Fronthaul Networks [119.81868223344173]
本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。
我々は、FSOネットワーク構造を利用するために、ポリシーパラメータ化のためのグラフニューラルネットワーク(GNN)を検討する。
本アルゴリズムは,システムモデルに関する知識が不要なモデルフリーでGNNを訓練するために開発された。
論文 参考訳(メタデータ) (2020-06-26T14:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。