論文の概要: Model Based Residual Policy Learning with Applications to Antenna
Control
- arxiv url: http://arxiv.org/abs/2211.08796v1
- Date: Wed, 16 Nov 2022 09:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:27:36.886056
- Title: Model Based Residual Policy Learning with Applications to Antenna
Control
- Title(参考訳): モデルに基づく残留政策学習とアンテナ制御への応用
- Authors: Viktor Eriksson M\"ollerstedt, Alessio Russo, Maxime Bouton
- Abstract要約: ロボットや通信ネットワークのような現実のシステムを制御するために、微分不可能なコントローラやルールベースのポリシーが広く使われている。
そこで本研究では,サンプル効率向上のためのモデルベースアプローチにより,既存の政策を改善するための実践的な強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 2.3848738964230023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-differentiable controllers and rule-based policies are widely used for
controlling real systems such as robots and telecommunication networks. In this
paper, we present a practical reinforcement learning method which improves upon
such existing policies with a model-based approach for better sample
efficiency. Our method significantly outperforms state-of-the-art model-based
methods, in terms of sample efficiency, on several widely used robotic
benchmark tasks. We also demonstrate the effectiveness of our approach on a
control problem in the telecommunications domain, where model-based methods
have not previously been explored. Experimental results indicate that a strong
initial performance can be achieved and combined with improved sample
efficiency. We further motivate the design of our algorithm with a theoretical
lower bound on the performance.
- Abstract(参考訳): 非微分コントローラとルールベースのポリシーは、ロボットや通信ネットワークのような実システムを制御するために広く使われている。
本稿では,モデルに基づくアプローチにより既存の政策を改善し,サンプル効率を向上させるための実践的な強化学習手法を提案する。
提案手法は,様々なロボットベンチマークタスクにおいて,サンプル効率の観点から,最先端のモデルベース手法よりも優れていた。
また,従来はモデルベース手法が検討されていなかった通信分野における制御問題に対するアプローチの有効性を示す。
実験結果から, 優れた初期性能が得られ, 試料効率が向上することが示唆された。
さらに,性能を理論的に下限にすることで,アルゴリズム設計の動機付けを行う。
関連論文リスト
- A Deep Q-Network Based on Radial Basis Functions for Multi-Echelon
Inventory Management [6.149034764951798]
本稿では,複雑なネットワークトポロジによる複数エケロン在庫管理問題に対処する。
Q-ネットワークが放射基底関数に基づくDRLモデルを開発する。
ベースストックポリシーが最適であるシリアルシステムにおいて、マルチエケロンシステムにおけるより良いポリシーと競争性能を生成する。
論文 参考訳(メタデータ) (2024-01-29T04:11:56Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Model-based adaptation for sample efficient transfer in reinforcement
learning control of parameter-varying systems [1.8799681615947088]
我々はモデルに基づく制御のアイデアを活用し、強化学習アルゴリズムのサンプル効率問題に対処する。
また,本手法は強化学習のみでの微調整よりもサンプリング効率が高いことを示した。
論文 参考訳(メタデータ) (2023-05-20T10:11:09Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。