論文の概要: Offline Reinforcement Learning for Wireless Network Optimization with
Mixture Datasets
- arxiv url: http://arxiv.org/abs/2311.11423v1
- Date: Sun, 19 Nov 2023 21:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:33:38.305753
- Title: Offline Reinforcement Learning for Wireless Network Optimization with
Mixture Datasets
- Title(参考訳): 混合データセットを用いた無線ネットワーク最適化のためのオフライン強化学習
- Authors: Kun Yang, Cong Shen, Jing Yang, Shu-ping Yeh, Jerry Sydir
- Abstract要約: 強化学習(RL)により、無線無線リソース管理(RRM)におけるオンラインRLの採用が促進された。
オンラインRLアルゴリズムは環境と直接対話する必要がある。
オフラインのRLは、すべての関連する行動ポリシーが非常に最適である場合でも、ほぼ最適のRLポリシーを生成することができる。
- 参考スコア(独自算出の注目度): 13.22086908661673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent development of reinforcement learning (RL) has boosted the
adoption of online RL for wireless radio resource management (RRM). However,
online RL algorithms require direct interactions with the environment, which
may be undesirable given the potential performance loss due to the unavoidable
exploration in RL. In this work, we first investigate the use of \emph{offline}
RL algorithms in solving the RRM problem. We evaluate several state-of-the-art
offline RL algorithms, including behavior constrained Q-learning (BCQ),
conservative Q-learning (CQL), and implicit Q-learning (IQL), for a specific
RRM problem that aims at maximizing a linear combination {of sum and}
5-percentile rates via user scheduling. We observe that the performance of
offline RL for the RRM problem depends critically on the behavior policy used
for data collection, and further propose a novel offline RL solution that
leverages heterogeneous datasets collected by different behavior policies. We
show that with a proper mixture of the datasets, offline RL can produce a
near-optimal RL policy even when all involved behavior policies are highly
suboptimal.
- Abstract(参考訳): 近年の強化学習(RL)は、無線無線リソース管理(RRM)におけるオンラインRLの採用を促進している。
しかし、オンラインRLアルゴリズムは環境との直接の相互作用を必要とするが、RLにおける避けられない探索による潜在的な性能損失を考えると、望ましくないかもしれない。
本研究ではまず, RRM 問題の解法における \emph{offline} RL アルゴリズムの利用について検討する。
我々は,ユーザスケジューリングによる線形結合を最大化することを目的とした特定のRRM問題に対して,動作制約付きQラーニング(BCQ),保守的Qラーニング(CQL),暗黙的Qラーニング(IQL)を含む,最先端のオフラインRLアルゴリズムを評価した。
rrm問題に対するオフラインrlの性能は、データ収集に使用される行動ポリシーに極めて依存しており、さらに、異なる行動ポリシーによって収集される異種データセットを活用する新しいオフラインrlソリューションを提案する。
データセットの適切な混合により、オフラインRLは、すべての関連する行動ポリシーが極めて最適である場合でも、ほぼ最適RLポリシーを生成することができることを示す。
関連論文リスト
- Offline and Distributional Reinforcement Learning for Radio Resource Management [5.771885923067511]
強化学習(RL)は将来のインテリジェント無線ネットワークにおいて有望な役割を担っている。
オンラインRLは無線リソース管理(RRM)に採用され、従来のスキームを継承している。
本稿では,RRM問題に対するオフラインかつ分散的なRLスキームを提案し,静的データセットを用いたオフライントレーニングを実現する。
論文 参考訳(メタデータ) (2024-09-25T09:22:23Z) - Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。
オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。
また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文 参考訳(メタデータ) (2023-12-16T22:09:50Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。