Fugu-MT 論文翻訳(概要): Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning

論文の概要: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.08421v2
Date: Sat, 16 Nov 2024 10:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.755779
Title: Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning
Title（参考訳）: オフラインマルチエージェント強化学習の保守的・リスク対応
Authors: Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab, Hirley Alves,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑なエンジニアリングシステムの制御と最適化に広く採用されている。 RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。本稿では、分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。
参考スコア（独自算出の注目度）: 33.48496141312585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has been widely adopted for controlling and optimizing complex engineering systems such as next-generation wireless networks. An important challenge in adopting RL is the need for direct access to the physical environment. This limitation is particularly severe in multi-agent systems, for which conventional multi-agent reinforcement learning (MARL) requires a large number of coordinated online interactions with the environment during training. When only offline data is available, a direct application of online MARL schemes would generally fail due to the epistemic uncertainty entailed by the lack of exploration during training. In this work, we propose an offline MARL scheme that integrates distributional RL and conservative Q-learning to address the environment's inherent aleatoric uncertainty and the epistemic uncertainty arising from the use of offline data. We explore both independent and joint learning strategies. The proposed MARL scheme, referred to as multi-agent conservative quantile regression, addresses general risk-sensitive design criteria and is applied to the trajectory planning problem in drone networks, showcasing its advantages.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑な工学システムの制御と最適化に広く採用されている。 RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。この制限は、従来のマルチエージェント強化学習(MARL)では、トレーニング中に環境と多数の協調的なオンラインインタラクションを必要とするマルチエージェントシステムでは特に深刻である。オフラインデータのみが利用可能である場合、オンラインMARLスキームの直接的な適用は、トレーニング中の探索の欠如によって引き起こされるてんかんの不確実性のため、一般的に失敗する。本研究では,分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。独立した学習戦略と共同学習戦略を探求する。提案手法は, 一般的なリスク感応設計基準に対処し, ドローンネットワークにおける軌道計画問題に適用し, その利点を示す。

関連論文リスト

Offline and Distributional Reinforcement Learning for Wireless Communications [5.771885923067511]
従来のオンライン強化学習(RL)とディープRL手法は、リアルタイム無線ネットワークにおいて制限に直面している。これらの課題を克服できる2つの高度なRL技術である、オフラインおよび分散RLに焦点を当てる。本稿では,無線通信アプリケーションのためのオフラインと分散RLを組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-04T09:24:39Z)
Resilient UAV Trajectory Planning via Few-Shot Meta-Offline Reinforcement Learning [5.771885923067511]
本研究は、オフラインRLとモデルに依存しないメタ学習を組み合わせた、新しい、レジリエントで、少数ショットのメタオフラインRLアルゴリズムを提案する。提案する数ショットメタオフラインRLアルゴリズムは,ベースライン方式よりも高速に収束することを示す。オフラインデータセットを使用して最適な共同AoIと送信パワーを達成できる唯一のアルゴリズムである。
論文参考訳（メタデータ） (2025-02-03T11:39:12Z)
Offline and Distributional Reinforcement Learning for Radio Resource Management [5.771885923067511]
強化学習(RL)は将来のインテリジェント無線ネットワークにおいて有望な役割を担っている。オンラインRLは無線リソース管理(RRM)に採用され、従来のスキームを継承している。本稿では,RRM問題に対するオフラインかつ分散的なRLスキームを提案し,静的データセットを用いたオフライントレーニングを実現する。
論文参考訳（メタデータ） (2024-09-25T09:22:23Z)
Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文参考訳（メタデータ） (2024-08-23T14:17:17Z)
Advancing RAN Slicing with Offline Reinforcement Learning [15.259182716723496]
本稿では,RANスライシング問題を解決するためにオフライン強化学習を導入する。オフラインRLが準最適データセットからほぼ最適ポリシーを効果的に学習する方法を示す。また、各種サービスレベルの要件に適合するオフラインRLの有効性の実証的証拠も提示する。
論文参考訳（メタデータ） (2023-12-16T22:09:50Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。 SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文参考訳（メタデータ） (2023-06-13T05:22:26Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN [11.464582983164991]
新しいオープン無線アクセスネットワーク(O-RAN)は、フレキシブルな設計、分離された仮想およびプログラマブルなコンポーネント、インテリジェントクローズループ制御などの特徴を区別する。 O-RANスライシングは、状況の変化に直面したネットワーク品質保証(QoS)のための重要な戦略として検討されている。本稿では,ネットワークスライスを知的に管理できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-08-30T17:00:53Z)
Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces [56.35676570414731]
Reconfigurable Intelligent Surfaces(RIS)の新たな技術は、スマート無線環境の実現手段として準備されている。 RISは、無線媒体上の電磁信号の伝搬を動的に制御するための、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供する。このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、複数の準曲面の効率的な構成である。
論文参考訳（メタデータ） (2022-05-08T06:21:33Z)
Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文参考訳（メタデータ） (2021-07-08T17:01:32Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。