論文の概要: Reinforcement Learning in Time-Varying Systems: an Empirical Study
- arxiv url: http://arxiv.org/abs/2201.05560v1
- Date: Fri, 14 Jan 2022 17:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:36:38.259907
- Title: Reinforcement Learning in Time-Varying Systems: an Empirical Study
- Title(参考訳): 時変システムにおける強化学習--実証的研究
- Authors: Pouya Hamadanian, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh
- Abstract要約: 非定常性によってもたらされる課題に対処するためのフレームワークを開発する。
このようなエージェントは、システムのパフォーマンスを損なうことなく、新しい環境を探索し、学習する必要がある。
当社のフレームワークは,トラグラー緩和と適応型ビデオストリーミングという2つのシステム問題に適用する。
- 参考スコア(独自算出の注目度): 10.822467081722152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has turned to Reinforcement Learning (RL) to solve
challenging decision problems, as an alternative to hand-tuned heuristics. RL
can learn good policies without the need for modeling the environment's
dynamics. Despite this promise, RL remains an impractical solution for many
real-world systems problems. A particularly challenging case occurs when the
environment changes over time, i.e. it exhibits non-stationarity. In this work,
we characterize the challenges introduced by non-stationarity and develop a
framework for addressing them to train RL agents in live systems. Such agents
must explore and learn new environments, without hurting the system's
performance, and remember them over time. To this end, our framework (1)
identifies different environments encountered by the live system, (2) explores
and trains a separate expert policy for each environment, and (3) employs
safeguards to protect the system's performance. We apply our framework to two
systems problems: straggler mitigation and adaptive video streaming, and
evaluate it against a variety of alternative approaches using real-world and
synthetic data. We show that each component of our framework is necessary to
cope with non-stationarity.
- Abstract(参考訳): 最近の研究は、手作業によるヒューリスティックスに代わる、難しい意思決定問題を解決するために強化学習(RL)に転換している。
rlは、環境のダイナミクスをモデリングすることなく、良いポリシーを学習できます。
この約束にもかかわらず、RLは多くの現実世界のシステム問題に対する非現実的な解決策である。
特に困難なケースは、環境が時間とともに変化する場合、すなわち非定常性を示す場合である。
本研究では,非定常性による課題を特徴づけ,実システムにおけるRLエージェントの訓練に対処するためのフレームワークを開発する。
このようなエージェントは、システムのパフォーマンスを損なうことなく、新しい環境を探索し、学習し、時間とともにそれを思い出さなければなりません。
この目的のために,(1)実システムで遭遇する異なる環境を特定し,(2)各環境に対して異なる専門家ポリシーを探索し,訓練し,(3)システムの性能を保護するために安全対策を講じる。
我々は,ストラグラー緩和と適応型ビデオストリーミングの2つのシステム問題に適用し,実世界のデータと合成データを用いた様々な代替手法と比較した。
我々はフレームワークの各コンポーネントが非定常性に対処する必要があることを示す。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - System Design for an Integrated Lifelong Reinforcement Learning Agent
for Real-Time Strategy Games [34.3277278308442]
継続/寿命学習(LL)は、新しいタスクを学習するモデルの能力を最大化しながら、古いタスクの忘れを最小限にする。
本稿では、L2RLシステムを標準化し、異なる連続学習コンポーネントを同化するLifelong Reinforcement Learning Components Framework (L2RLCF)を紹介する。
本稿では,複数の独立開発LLコンポーネントが単一システムに統合可能であることを示すケーススタディについて述べる。
論文 参考訳(メタデータ) (2022-12-08T23:32:57Z) - Many-Objective Reinforcement Learning for Online Testing of DNN-Enabled
Systems [0.6690874707758508]
ディープニューラルネットワーク(DNN)は、自律ダイビングシステム(ADS)のようなサイバー物理システムにおいて現実世界のタスクを実行するために広く利用されている。
このようなDNN-Enabled Systems(DES)の正しい動作を保証することが重要なトピックである。
オンラインテストは、そのようなシステムをクローズドループでアプリケーション環境(シミュレーションまたは現実)でテストするための有望なモードの1つです。
本稿では,強化学習(RL)と多目的探索を組み合わせることで,これらの課題に対処する新しいオンラインテスト手法であるMORLOTを提案する。
論文 参考訳(メタデータ) (2022-10-27T13:53:37Z) - Cross apprenticeship learning framework: Properties and solution
approaches [0.880899367147235]
この作業は、各環境に最適なポリシーを求めると同時に、すべてのポリシーが互いに近くにあることを保証する最適化問題から成り立っている。
問題は凸ではないので、凸外近似を提供する。
論文 参考訳(メタデータ) (2022-09-06T11:45:27Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文 参考訳(メタデータ) (2022-03-14T19:20:26Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。