Fugu-MT 論文翻訳(概要): Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning for Digital Twins

論文の概要: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning for Digital Twins

arxiv url: http://arxiv.org/abs/2402.08421v1
Date: Tue, 13 Feb 2024 12:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 15:31:03.814109
Title: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning for Digital Twins
Title（参考訳）: デジタル双生児の保存的・リスク対応型オフラインマルチエージェント強化学習
Authors: Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab and Hirley Alves
Abstract要約: 本稿では、分散RLと保守的Q-ラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。提案手法を集中型分散実行フレームワークに適用し,エージェントの政策を共同で訓練する。提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処する。
参考スコア（独自算出の注目度）: 35.92420537571923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Digital twin (DT) platforms are increasingly regarded as a promising technology for controlling, optimizing, and monitoring complex engineering systems such as next-generation wireless networks. An important challenge in adopting DT solutions is their reliance on data collected offline, lacking direct access to the physical environment. This limitation is particularly severe in multi-agent systems, for which conventional multi-agent reinforcement (MARL) requires online interactions with the environment. A direct application of online MARL schemes to an offline setting would generally fail due to the epistemic uncertainty entailed by the limited availability of data. In this work, we propose an offline MARL scheme for DT-based wireless networks that integrates distributional RL and conservative Q-learning to address the environment's inherent aleatoric uncertainty and the epistemic uncertainty arising from limited data. To further exploit the offline data, we adapt the proposed scheme to the centralized training decentralized execution framework, allowing joint training of the agents' policies. The proposed MARL scheme, referred to as multi-agent conservative quantile regression (MA-CQR) addresses general risk-sensitive design criteria and is applied to the trajectory planning problem in drone networks, showcasing its advantages.
Abstract（参考訳）: デジタルツイン(dt)プラットフォームは、次世代無線ネットワークのような複雑なエンジニアリングシステムを制御、最適化、監視するための有望な技術と見なされている。 dtソリューションを採用する上で重要な課題は、オフラインで収集されたデータに依存し、物理的環境に直接アクセスできないことだ。この制限は、従来のマルチエージェント強化(MARL)が環境とのオンラインインタラクションを必要とするマルチエージェントシステムでは特に深刻である。オフライン設定へのオンラインmarlスキームの直接適用は、一般的にデータの可用性の制限による認識の不確実性のために失敗する。本研究では,分散RLと保守的Qラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。オフラインデータをさらに活用するために,提案手法を集中型トレーニング分散実行フレームワークに適用し,エージェントのポリシの合同トレーニングを可能にする。提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処し,ドローンネットワークにおける軌道計画問題に適用し,その利点を示す。

関連論文リスト

Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。 MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文参考訳（メタデータ） (2025-06-29T05:05:13Z)
Efficient Beam Selection for ISAC in Cell-Free Massive MIMO via Digital Twin-Assisted Deep Reinforcement Learning [37.540612510652174]
我々は、誤報率制約の下で複数の受信APに対して共同目標検出確率の分布を導出する。次に、マルコフ決定過程(MDP)としてビーム選択手順を定式化する。リアルタイムエージェント環境相互作用の高コスト化とそれに伴うリスクを解消するために,新しいディジタルツイン(DT)支援オフラインDRL手法を提案する。
論文参考訳（メタデータ） (2025-06-23T12:17:57Z)
Offline and Distributional Reinforcement Learning for Wireless Communications [5.771885923067511]
従来のオンライン強化学習(RL)とディープRL手法は、リアルタイム無線ネットワークにおいて制限に直面している。これらの課題を克服できる2つの高度なRL技術である、オフラインおよび分散RLに焦点を当てる。本稿では,無線通信アプリケーションのためのオフラインと分散RLを組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-04T09:24:39Z)
Resilient UAV Trajectory Planning via Few-Shot Meta-Offline Reinforcement Learning [5.771885923067511]
本研究は、オフラインRLとモデルに依存しないメタ学習を組み合わせた、新しい、レジリエントで、少数ショットのメタオフラインRLアルゴリズムを提案する。提案する数ショットメタオフラインRLアルゴリズムは,ベースライン方式よりも高速に収束することを示す。オフラインデータセットを使用して最適な共同AoIと送信パワーを達成できる唯一のアルゴリズムである。
論文参考訳（メタデータ） (2025-02-03T11:39:12Z)
Offline and Distributional Reinforcement Learning for Radio Resource Management [5.771885923067511]
強化学習(RL)は将来のインテリジェント無線ネットワークにおいて有望な役割を担っている。オンラインRLは無線リソース管理(RRM)に採用され、従来のスキームを継承している。本稿では,RRM問題に対するオフラインかつ分散的なRLスキームを提案し,静的データセットを用いたオフライントレーニングを実現する。
論文参考訳（メタデータ） (2024-09-25T09:22:23Z)
Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文参考訳（メタデータ） (2024-08-23T14:17:17Z)
Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文参考訳（メタデータ） (2023-12-16T22:09:50Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。 SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文参考訳（メタデータ） (2023-06-13T05:22:26Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN [11.464582983164991]
新しいオープン無線アクセスネットワーク(O-RAN)は、フレキシブルな設計、分離された仮想およびプログラマブルなコンポーネント、インテリジェントクローズループ制御などの特徴を区別する。 O-RANスライシングは、状況の変化に直面したネットワーク品質保証(QoS)のための重要な戦略として検討されている。本稿では,ネットワークスライスを知的に管理できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-08-30T17:00:53Z)
Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces [56.35676570414731]
Reconfigurable Intelligent Surfaces(RIS)の新たな技術は、スマート無線環境の実現手段として準備されている。 RISは、無線媒体上の電磁信号の伝搬を動的に制御するための、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供する。このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、複数の準曲面の効率的な構成である。
論文参考訳（メタデータ） (2022-05-08T06:21:33Z)
Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文参考訳（メタデータ） (2021-07-08T17:01:32Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。