論文の概要: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
for Digital Twins
- arxiv url: http://arxiv.org/abs/2402.08421v1
- Date: Tue, 13 Feb 2024 12:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:31:03.814109
- Title: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
for Digital Twins
- Title(参考訳): デジタル双生児の保存的・リスク対応型オフラインマルチエージェント強化学習
- Authors: Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab and
Hirley Alves
- Abstract要約: 本稿では、分散RLと保守的Q-ラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。
提案手法を集中型分散実行フレームワークに適用し,エージェントの政策を共同で訓練する。
提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処する。
- 参考スコア(独自算出の注目度): 35.92420537571923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital twin (DT) platforms are increasingly regarded as a promising
technology for controlling, optimizing, and monitoring complex engineering
systems such as next-generation wireless networks. An important challenge in
adopting DT solutions is their reliance on data collected offline, lacking
direct access to the physical environment. This limitation is particularly
severe in multi-agent systems, for which conventional multi-agent reinforcement
(MARL) requires online interactions with the environment. A direct application
of online MARL schemes to an offline setting would generally fail due to the
epistemic uncertainty entailed by the limited availability of data. In this
work, we propose an offline MARL scheme for DT-based wireless networks that
integrates distributional RL and conservative Q-learning to address the
environment's inherent aleatoric uncertainty and the epistemic uncertainty
arising from limited data. To further exploit the offline data, we adapt the
proposed scheme to the centralized training decentralized execution framework,
allowing joint training of the agents' policies. The proposed MARL scheme,
referred to as multi-agent conservative quantile regression (MA-CQR) addresses
general risk-sensitive design criteria and is applied to the trajectory
planning problem in drone networks, showcasing its advantages.
- Abstract(参考訳): デジタルツイン(dt)プラットフォームは、次世代無線ネットワークのような複雑なエンジニアリングシステムを制御、最適化、監視するための有望な技術と見なされている。
dtソリューションを採用する上で重要な課題は、オフラインで収集されたデータに依存し、物理的環境に直接アクセスできないことだ。
この制限は、従来のマルチエージェント強化(MARL)が環境とのオンラインインタラクションを必要とするマルチエージェントシステムでは特に深刻である。
オフライン設定へのオンラインmarlスキームの直接適用は、一般的にデータの可用性の制限による認識の不確実性のために失敗する。
本研究では,分散RLと保守的Qラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。
オフラインデータをさらに活用するために,提案手法を集中型トレーニング分散実行フレームワークに適用し,エージェントのポリシの合同トレーニングを可能にする。
提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処し,ドローンネットワークにおける軌道計画問題に適用し,その利点を示す。
関連論文リスト
- Privacy-Preserving Distributed Learning for Residential Short-Term Load
Forecasting [11.185176107646956]
電力システムの負荷データは、住宅ユーザの日常のルーチンを不注意に明らかにし、彼らの財産のセキュリティにリスクを及ぼす可能性がある。
我々はマルコフスイッチ方式の分散学習フレームワークを導入し、その収束は厳密な理論的解析によって実証される。
実世界の電力系統負荷データを用いたケーススタディにより,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-02T16:39:08Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem [22.385585755496116]
既存のMARL(Multi-Agent Reinforcement Learning)手法はオンラインであり,新たなインタラクションの収集に費用がかかる,あるいは危険である実世界のアプリケーションには実用的ではない。
戦略合意(SA)と戦略細調整(SFT)の調整課題を特定し,定式化する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は,合成相互作用データを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にするアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-26T18:43:16Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - Pervasive Machine Learning for Smart Radio Environments Enabled by
Reconfigurable Intelligent Surfaces [56.35676570414731]
Reconfigurable Intelligent Surfaces(RIS)の新たな技術は、スマート無線環境の実現手段として準備されている。
RISは、無線媒体上の電磁信号の伝搬を動的に制御するための、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供する。
このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、複数の準曲面の効率的な構成である。
論文 参考訳(メタデータ) (2022-05-08T06:21:33Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Ultra-Reliable Indoor Millimeter Wave Communications using Multiple
Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。
複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。
mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文 参考訳(メタデータ) (2021-03-31T19:15:49Z) - Multi-UAV Path Planning for Wireless Data Harvesting with Deep
Reinforcement Learning [18.266087952180733]
本稿では,データ収集ミッションを定義するシナリオパラメータの深い変化に適応できるマルチエージェント強化学習(MARL)手法を提案する。
提案するネットワークアーキテクチャにより,データ収集タスクを慎重に分割することで,エージェントが効果的に協調できることを示す。
論文 参考訳(メタデータ) (2020-10-23T14:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。