論文の概要: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
for Digital Twins
- arxiv url: http://arxiv.org/abs/2402.08421v1
- Date: Tue, 13 Feb 2024 12:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:31:03.814109
- Title: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
for Digital Twins
- Title(参考訳): デジタル双生児の保存的・リスク対応型オフラインマルチエージェント強化学習
- Authors: Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab and
Hirley Alves
- Abstract要約: 本稿では、分散RLと保守的Q-ラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。
提案手法を集中型分散実行フレームワークに適用し,エージェントの政策を共同で訓練する。
提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処する。
- 参考スコア(独自算出の注目度): 35.92420537571923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital twin (DT) platforms are increasingly regarded as a promising
technology for controlling, optimizing, and monitoring complex engineering
systems such as next-generation wireless networks. An important challenge in
adopting DT solutions is their reliance on data collected offline, lacking
direct access to the physical environment. This limitation is particularly
severe in multi-agent systems, for which conventional multi-agent reinforcement
(MARL) requires online interactions with the environment. A direct application
of online MARL schemes to an offline setting would generally fail due to the
epistemic uncertainty entailed by the limited availability of data. In this
work, we propose an offline MARL scheme for DT-based wireless networks that
integrates distributional RL and conservative Q-learning to address the
environment's inherent aleatoric uncertainty and the epistemic uncertainty
arising from limited data. To further exploit the offline data, we adapt the
proposed scheme to the centralized training decentralized execution framework,
allowing joint training of the agents' policies. The proposed MARL scheme,
referred to as multi-agent conservative quantile regression (MA-CQR) addresses
general risk-sensitive design criteria and is applied to the trajectory
planning problem in drone networks, showcasing its advantages.
- Abstract(参考訳): デジタルツイン(dt)プラットフォームは、次世代無線ネットワークのような複雑なエンジニアリングシステムを制御、最適化、監視するための有望な技術と見なされている。
dtソリューションを採用する上で重要な課題は、オフラインで収集されたデータに依存し、物理的環境に直接アクセスできないことだ。
この制限は、従来のマルチエージェント強化(MARL)が環境とのオンラインインタラクションを必要とするマルチエージェントシステムでは特に深刻である。
オフライン設定へのオンラインmarlスキームの直接適用は、一般的にデータの可用性の制限による認識の不確実性のために失敗する。
本研究では,分散RLと保守的Qラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。
オフラインデータをさらに活用するために,提案手法を集中型トレーニング分散実行フレームワークに適用し,エージェントのポリシの合同トレーニングを可能にする。
提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処し,ドローンネットワークにおける軌道計画問題に適用し,その利点を示す。
関連論文リスト
- Offline and Distributional Reinforcement Learning for Radio Resource Management [5.771885923067511]
強化学習(RL)は将来のインテリジェント無線ネットワークにおいて有望な役割を担っている。
オンラインRLは無線リソース管理(RRM)に採用され、従来のスキームを継承している。
本稿では,RRM問題に対するオフラインかつ分散的なRLスキームを提案し,静的データセットを用いたオフライントレーニングを実現する。
論文 参考訳(メタデータ) (2024-09-25T09:22:23Z) - Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。
本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:17:17Z) - Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。
オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。
また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文 参考訳(メタデータ) (2023-12-16T22:09:50Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in
O-RAN [11.464582983164991]
新しいオープン無線アクセスネットワーク(O-RAN)は、フレキシブルな設計、分離された仮想およびプログラマブルなコンポーネント、インテリジェントクローズループ制御などの特徴を区別する。
O-RANスライシングは、状況の変化に直面したネットワーク品質保証(QoS)のための重要な戦略として検討されている。
本稿では,ネットワークスライスを知的に管理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-30T17:00:53Z) - Pervasive Machine Learning for Smart Radio Environments Enabled by
Reconfigurable Intelligent Surfaces [56.35676570414731]
Reconfigurable Intelligent Surfaces(RIS)の新たな技術は、スマート無線環境の実現手段として準備されている。
RISは、無線媒体上の電磁信号の伝搬を動的に制御するための、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供する。
このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、複数の準曲面の効率的な構成である。
論文 参考訳(メタデータ) (2022-05-08T06:21:33Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。