論文の概要: Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration
- arxiv url: http://arxiv.org/abs/2108.10352v1
- Date: Mon, 23 Aug 2021 18:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:07:23.958350
- Title: Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration
- Title(参考訳): 行動空間探索による無線システムの最適決定性資源配分のモデル自由学習
- Authors: Hassaan Hashmi and Dionysios S. Kalogerias
- Abstract要約: 本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
- 参考スコア(独自算出の注目度): 4.721069729610892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wireless systems resource allocation refers to perpetual and challenging
nonconvex constrained optimization tasks, which are especially timely in modern
communications and networking setups involving multiple users with
heterogeneous objectives and imprecise or even unknown models and/or channel
statistics. In this paper, we propose a technically grounded and scalable
primal-dual deterministic policy gradient method for efficiently learning
optimal parameterized resource allocation policies. Our method not only
efficiently exploits gradient availability of popular universal policy
representations, such as deep neural networks, but is also truly model-free, as
it relies on consistent zeroth-order gradient approximations of the associated
random network services constructed via low-dimensional perturbations in action
space, thus fully bypassing any dependence on critics. Both theory and
numerical simulations confirm the efficacy and applicability of the proposed
approach, as well as its superiority over the current state of the art in terms
of both achieving near-optimal performance and scalability.
- Abstract(参考訳): ワイヤレスシステムのリソース割り当ては、永続的で挑戦的な非凸制約付き最適化タスクを指しており、特に、不均一な目的と不正確あるいは未知のモデルやチャネル統計を持つ複数のユーザを含む現代の通信およびネットワーク設定においてタイムリーである。
本稿では,最適パラメータ化資源割り当てポリシーを効率よく学習するための,技術的基盤と拡張性のある原始双対決定性ポリシー勾配法を提案する。
提案手法は,深層ニューラルネットワークなどの一般的な普遍的政策表現の勾配を効率よく活用するだけでなく,行動空間の低次元摂動によって構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため,真のモデルフリーである。
理論と数値シミュレーションの両方が提案手法の有効性と適用性を確認し、ほぼ最適性能とスケーラビリティの両面において現在の技術よりも優れていることを証明している。
関連論文リスト
- Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Resource Allocation via Graph Neural Networks in Free Space Optical
Fronthaul Networks [119.81868223344173]
本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。
我々は、FSOネットワーク構造を利用するために、ポリシーパラメータ化のためのグラフニューラルネットワーク(GNN)を検討する。
本アルゴリズムは,システムモデルに関する知識が不要なモデルフリーでGNNを訓練するために開発された。
論文 参考訳(メタデータ) (2020-06-26T14:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。