論文の概要: A Benchmark for Low-Switching-Cost Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.06424v1
- Date: Mon, 13 Dec 2021 05:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:25:17.347184
- Title: A Benchmark for Low-Switching-Cost Reinforcement Learning
- Title(参考訳): 低コスト強化学習のためのベンチマーク
- Authors: Shusheng Xu, Yancheng Liang, Yunfei Li, Simon Shaolei Du and Yi Wu
- Abstract要約: 低コストの強化学習は、トレーニング中にポリシースイッチの数を減らしながら、最高の報酬を得ることができる。
スイッチングコストを下げる方法に関する新しい知見を報告する。
このベンチマークが、より実用的な低コストのRLアルゴリズムの開発の出発点になることを期待している。
- 参考スコア(独自算出の注目度): 9.569906040234995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A ubiquitous requirement in many practical reinforcement learning (RL)
applications, including medical treatment, recommendation system, education and
robotics, is that the deployed policy that actually interacts with the
environment cannot change frequently. Such an RL setting is called
low-switching-cost RL, i.e., achieving the highest reward while reducing the
number of policy switches during training. Despite the recent trend of
theoretical studies aiming to design provably efficient RL algorithms with low
switching costs, none of the existing approaches have been thoroughly evaluated
in popular RL testbeds. In this paper, we systematically studied a wide
collection of policy-switching approaches, including theoretically guided
criteria, policy-difference-based methods, and non-adaptive baselines. Through
extensive experiments on a medical treatment environment, the Atari games, and
robotic control tasks, we present the first empirical benchmark for
low-switching-cost RL and report novel findings on how to decrease the
switching cost while maintain a similar sample efficiency to the case without
the low-switching-cost constraint. We hope this benchmark could serve as a
starting point for developing more practically effective low-switching-cost RL
algorithms. We release our code and complete results in
https://sites.google.com/view/low-switching-cost-rl.
- Abstract(参考訳): 医療、レコメンデーションシステム、教育、ロボット工学を含む多くの実践的強化学習(RL)応用において、ユビキタスな要件は、実際に環境と相互作用するデプロイポリシーが頻繁に変更されないことである。
このようなRL設定は、低スイッチングコストRL、すなわち、トレーニング中のポリシースイッチ数を減らしながら最高報酬を達成する。
スイッチングコストの低い効率なRLアルゴリズムを設計することを目的とした最近の理論的研究の傾向にもかかわらず、既存のアプローチは人気のあるRLテストベッドでは十分に評価されていない。
本稿では,理論的指導基準,政策差に基づく手法,非適応的ベースラインなど,政策変更のアプローチを体系的に検討した。
医療環境, atariゲーム, ロボット制御タスクに関する広範な実験を通じて, 低コストrlに対する最初の実証ベンチマークを提示し, 低コストの制約を伴わずにケースと同様のサンプル効率を維持しつつ, スイッチングコストを削減する方法に関する新たな知見を報告する。
このベンチマークが、より実用的な低コストのRLアルゴリズムの開発の出発点になることを期待している。
私たちはコードと完全な結果をhttps://sites.google.com/view/low-switching-cost-rlでリリースします。
関連論文リスト
- GuideLight: "Industrial Solution" Guidance for More Practical Traffic Signal Control Agents [12.497518428553734]
強化学習(RL)に基づく交通信号制御(TSC)法は,従来の手法よりも優れていることが証明されている。
しかし、ほとんどのRL法は、入力、出力、サイクル-フロー関係という3つの要因により、実世界で適用した場合に困難に直面している。
我々は、RLエージェントをガイドする業界ソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:26:10Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Optimal Policy Sparsification and Low Rank Decomposition for Deep
Reinforcement Learning [0.0]
深層強化学習(DRL)は、コンピュータゲームやロボティクスを含む幅広いアプリケーションにおいて大きな可能性を示している。
密度の高いDRLポリシーによる推論は、特にエッジコンピューティングにおける実用的応用を制限する。
本稿では,DRLポリシーをスパース化し,報酬を損なうことなく下位階に分解を促進するために最適空間マップを用いた新しい$L_0$-norm-regularization手法を提案する。
論文 参考訳(メタデータ) (2024-03-10T21:18:54Z) - An advantage based policy transfer algorithm for reinforcement learning
with metrics of transferability [6.660458629649826]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。
トランスファーRLアルゴリズムは、1つまたは複数のソース環境からターゲット環境への知識の転送に使用できる。
本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文 参考訳(メタデータ) (2023-11-12T04:25:53Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。
DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。
これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。