論文の概要: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.08421v2
- Date: Sat, 16 Nov 2024 10:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:26:47.705395
- Title: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
- Title(参考訳): オフラインマルチエージェント強化学習の保守的・リスク対応
- Authors: Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab, Hirley Alves,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑なエンジニアリングシステムの制御と最適化に広く採用されている。
RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。
本稿では、分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。
- 参考スコア(独自算出の注目度): 33.48496141312585
- License:
- Abstract: Reinforcement learning (RL) has been widely adopted for controlling and optimizing complex engineering systems such as next-generation wireless networks. An important challenge in adopting RL is the need for direct access to the physical environment. This limitation is particularly severe in multi-agent systems, for which conventional multi-agent reinforcement learning (MARL) requires a large number of coordinated online interactions with the environment during training. When only offline data is available, a direct application of online MARL schemes would generally fail due to the epistemic uncertainty entailed by the lack of exploration during training. In this work, we propose an offline MARL scheme that integrates distributional RL and conservative Q-learning to address the environment's inherent aleatoric uncertainty and the epistemic uncertainty arising from the use of offline data. We explore both independent and joint learning strategies. The proposed MARL scheme, referred to as multi-agent conservative quantile regression, addresses general risk-sensitive design criteria and is applied to the trajectory planning problem in drone networks, showcasing its advantages.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑な工学システムの制御と最適化に広く採用されている。
RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。
この制限は、従来のマルチエージェント強化学習(MARL)では、トレーニング中に環境と多数の協調的なオンラインインタラクションを必要とするマルチエージェントシステムでは特に深刻である。
オフラインデータのみが利用可能である場合、オンラインMARLスキームの直接的な適用は、トレーニング中の探索の欠如によって引き起こされるてんかんの不確実性のため、一般的に失敗する。
本研究では,分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。
独立した学習戦略と共同学習戦略を探求する。
提案手法は, 一般的なリスク感応設計基準に対処し, ドローンネットワークにおける軌道計画問題に適用し, その利点を示す。
関連論文リスト
- Federated PCA on Grassmann Manifold for IoT Anomaly Detection [23.340237814344384]
従来の機械学習ベースの侵入検知システム(ML-IDS)にはラベル付きデータの要求のような制限がある。
AutoEncodersやGenerative Adversarial Networks (GAN)のような最近の教師なしML-IDSアプローチは代替ソリューションを提供する。
本稿では,分散データセットの共通表現を学習するフェデレーション型非教師付き異常検出フレームワークであるFedPCAを提案する。
論文 参考訳(メタデータ) (2024-07-10T07:23:21Z) - Securing Distributed Network Digital Twin Systems Against Model Poisoning Attacks [19.697853431302768]
ディジタルツイン(DT)は、リアルタイム監視、予測、意思決定能力の向上を具現化する。
本研究では,分散ネットワークDTシステムにおけるセキュリティ上の課題について検討し,その後のネットワークアプリケーションの信頼性を損なう可能性がある。
論文 参考訳(メタデータ) (2024-07-02T03:32:09Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - Pervasive Machine Learning for Smart Radio Environments Enabled by
Reconfigurable Intelligent Surfaces [56.35676570414731]
Reconfigurable Intelligent Surfaces(RIS)の新たな技術は、スマート無線環境の実現手段として準備されている。
RISは、無線媒体上の電磁信号の伝搬を動的に制御するための、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供する。
このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、複数の準曲面の効率的な構成である。
論文 参考訳(メタデータ) (2022-05-08T06:21:33Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Ultra-Reliable Indoor Millimeter Wave Communications using Multiple
Artificial Intelligence-Powered Intelligent Surfaces [115.85072043481414]
複数人工知能(AI)対応再構成可能なインテリジェントサーフェス(RIS)を用いた超信頼性ミリ波(mmW)通信を保証する新しいフレームワークを提案する。
複数のAI駆動RISを使用することで、mmWアクセスポイント(AP)から送信される信号の伝搬方向を変更できます。
mmW APとRISのポリシーを制御するために、2つの集中型および分散コントローラが提案されている。
論文 参考訳(メタデータ) (2021-03-31T19:15:49Z) - Multi-UAV Path Planning for Wireless Data Harvesting with Deep
Reinforcement Learning [18.266087952180733]
本稿では,データ収集ミッションを定義するシナリオパラメータの深い変化に適応できるマルチエージェント強化学習(MARL)手法を提案する。
提案するネットワークアーキテクチャにより,データ収集タスクを慎重に分割することで,エージェントが効果的に協調できることを示す。
論文 参考訳(メタデータ) (2020-10-23T14:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。