Fugu-MT 論文翻訳(概要): Model Based Residual Policy Learning with Applications to Antenna Control

論文の概要: Model Based Residual Policy Learning with Applications to Antenna Control

arxiv url: http://arxiv.org/abs/2211.08796v3
Date: Mon, 11 Sep 2023 15:34:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 22:49:14.873674
Title: Model Based Residual Policy Learning with Applications to Antenna Control
Title（参考訳）: モデルに基づく残留政策学習とアンテナ制御への応用
Authors: Viktor Eriksson M\"ollerstedt, Alessio Russo, Maxime Bouton
Abstract要約: 遠隔通信ネットワークやロボットなどの実システムを制御するために、微分不能なコントローラやルールベースのポリシーが広く使われている。アンテナ傾斜制御問題に触発されたモデルベース残留政策学習(MBRPL)を実践的強化学習(RL)法として導入する。
参考スコア（独自算出の注目度）: 5.01069065110753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Non-differentiable controllers and rule-based policies are widely used for controlling real systems such as telecommunication networks and robots. Specifically, parameters of mobile network base station antennas can be dynamically configured by these policies to improve users coverage and quality of service. Motivated by the antenna tilt control problem, we introduce Model-Based Residual Policy Learning (MBRPL), a practical reinforcement learning (RL) method. MBRPL enhances existing policies through a model-based approach, leading to improved sample efficiency and a decreased number of interactions with the actual environment when compared to off-the-shelf RL methods.To the best of our knowledge, this is the first paper that examines a model-based approach for antenna control. Experimental results reveal that our method delivers strong initial performance while improving sample efficiency over previous RL methods, which is one step towards deploying these algorithms in real networks.
Abstract（参考訳）: 非微分コントローラとルールベースのポリシーは、通信ネットワークやロボットのような実システムを制御するために広く使われている。具体的には、これらのポリシーによりモバイルネットワーク基地局アンテナのパラメータを動的に設定し、ユーザのカバレッジとサービス品質を改善する。アンテナ傾斜制御問題に触発されたモデルベース残留政策学習(MBRPL)を実践的強化学習(RL)法として導入する。 MBRPLは、モデルベースアプローチによる既存のポリシーを強化し、市販のRL法と比較してサンプル効率の向上と実際の環境との相互作用の減少につながる。実験結果から,本手法は従来のRL法よりも高効率であり,実ネットワークにこれらのアルゴリズムをデプロイするための一歩であることがわかった。

関連論文リスト

Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文参考訳（メタデータ） (2025-03-24T15:35:16Z)
A Deep Q-Network Based on Radial Basis Functions for Multi-Echelon Inventory Management [6.149034764951798]
本稿では,複雑なネットワークトポロジによる複数エケロン在庫管理問題に対処する。 Q-ネットワークが放射基底関数に基づくDRLモデルを開発する。ベースストックポリシーが最適であるシリアルシステムにおいて、マルチエケロンシステムにおけるより良いポリシーと競争性能を生成する。
論文参考訳（メタデータ） (2024-01-29T04:11:56Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)
Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。 RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文参考訳（メタデータ） (2023-11-15T09:50:54Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Model-based adaptation for sample efficient transfer in reinforcement learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文参考訳（メタデータ） (2023-05-20T10:11:09Z)
Efficient Domain Coverage for Vehicles with Second-Order Dynamics via Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文参考訳（メタデータ） (2022-11-11T01:59:12Z)
Fully Decentralized Model-based Policy Optimization for Networked Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T23:52:14Z)
Learning Optimal Antenna Tilt Control Policies: A Contextual Linear Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文参考訳（メタデータ） (2022-01-06T18:24:30Z)
Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文参考訳（メタデータ） (2021-02-18T13:49:28Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。