論文の概要: A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments
- arxiv url: http://arxiv.org/abs/2005.10619v1
- Date: Tue, 19 May 2020 09:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:04:34.806743
- Title: A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments
- Title(参考訳): 動的変動環境における強化学習アルゴリズムの検討
- Authors: Sindhu Padakandla
- Abstract要約: 強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
- 参考スコア(独自算出の注目度): 1.713291434132985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms find applications in inventory
control, recommender systems, vehicular traffic management, cloud computing and
robotics. The real-world complications of many tasks arising in these domains
makes them difficult to solve with the basic assumptions underlying classical
RL algorithms. RL agents in these applications often need to react and adapt to
changing operating conditions. A significant part of research on single-agent
RL techniques focuses on developing algorithms when the underlying assumption
of stationary environment model is relaxed. This paper provides a survey of RL
methods developed for handling dynamically varying environment models. The goal
of methods not limited by the stationarity assumption is to help autonomous
agents adapt to varying operating conditions. This is possible either by
minimizing the rewards lost during learning by RL agent or by finding a
suitable policy for the RL agent which leads to efficient operation of the
underlying system. A representative collection of these algorithms is discussed
in detail in this work along with their categorization and their relative
merits and demerits. Additionally we also review works which are tailored to
application domains. Finally, we discuss future enhancements for this field.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは、在庫管理、推奨システム、車両交通管理、クラウドコンピューティング、ロボット工学のアプリケーションを見つける。
これらの領域で生じる多くのタスクの現実的な複雑さは、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
これらのアプリケーションにおけるRLエージェントは、しばしば、変化する操作条件に反応し適応する必要がある。
単一エージェントRL技術に関する研究の重要な部分は、定常環境モデルの仮定が緩和された場合のアルゴリズムの開発に焦点を当てている。
本稿では,動的に変化する環境モデルを扱うためのrl手法について検討する。
定常性仮定に制限されない手法の目的は、自律エージェントが様々な運用条件に適応するのを助けることである。
これは、RLエージェントが学習中に失った報酬を最小化するか、または基礎となるシステムの効率的な操作につながるRLエージェントに適したポリシーを見つけることによって可能となる。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
さらに、アプリケーションドメインに合わせた作業もレビューします。
最後に、この分野の今後の拡張について論じる。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation [9.37335587960084]
強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。
エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。
どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
論文 参考訳(メタデータ) (2021-03-15T09:51:34Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Deep Reinforcement Learning for Autonomous Driving: A Survey [0.3694429692322631]
このレビューは、深層強化学習(DRL)アルゴリズムを要約し、自動走行タスクの分類を提供する。
また、振る舞いのクローン化、模倣学習、逆強化学習など、古典的なRLアルゴリズムとは無関係な隣接領域についても記述する。
トレーニングエージェントにおけるシミュレータの役割,RLにおける既存ソリューションの検証,テスト,堅牢化手法について論じる。
論文 参考訳(メタデータ) (2020-02-02T18:21:22Z) - Reinforcement Learning-based Application Autoscaling in the Cloud: A
Survey [2.9751538760825085]
強化学習(Reinforcement Learning, RL)は, 複雑な不確実環境における意思決定問題を自動的に解決する大きな可能性を実証した。
アプリケーションを実行するために透過的な(人間の介入なしに)、動的(静的な計画なしで)、適応可能な(即時更新された)リソース管理ポリシーを学ぶことができる。
クラウドの弾力性を利用して、所定の最適化基準に従ってアプリケーションの実行を最適化する。
論文 参考訳(メタデータ) (2020-01-27T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。