論文の概要: Actively Learning Costly Reward Functions for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.13260v1
- Date: Wed, 23 Nov 2022 19:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:30:13.188148
- Title: Actively Learning Costly Reward Functions for Reinforcement Learning
- Title(参考訳): 強化学習のための費用対効果関数のアクティブ学習
- Authors: Andr\'e Eberhard, Houssam Metni, Georg Fahland, Alexander Stroh,
Pascal Friederich
- Abstract要約: 複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
- 参考スコア(独自算出の注目度): 56.34005280792013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer of recent advances in deep reinforcement learning to real-world
applications is hindered by high data demands and thus low efficiency and
scalability. Through independent improvements of components such as replay
buffers or more stable learning algorithms, and through massively distributed
systems, training time could be reduced from several days to several hours for
standard benchmark tasks. However, while rewards in simulated environments are
well-defined and easy to compute, reward evaluation becomes the bottleneck in
many real-world environments, e.g., in molecular optimization tasks, where
computationally demanding simulations or even experiments are required to
evaluate states and to quantify rewards. Therefore, training might become
prohibitively expensive without an extensive amount of computational resources
and time. We propose to alleviate this problem by replacing costly ground-truth
rewards with rewards modeled by neural networks, counteracting non-stationarity
of state and reward distributions during training with an active learning
component. We demonstrate that using our proposed ACRL method (Actively
learning Costly rewards for Reinforcement Learning), it is possible to train
agents in complex real-world environments orders of magnitudes faster. By
enabling the application of reinforcement learning methods to new domains, we
show that we can find interesting and non-trivial solutions to real-world
optimization problems in chemistry, materials science and engineering.
- Abstract(参考訳): 深層強化学習の最近の進歩を現実のアプリケーションに移すことは、高いデータ要求と低い効率とスケーラビリティによって妨げられている。
リプレイバッファやより安定した学習アルゴリズムなどのコンポーネントを独立に改善し、大規模分散システムを通じて、標準的なベンチマークタスクではトレーニング時間を数日から数時間に短縮することができた。
しかしながら、シミュレーション環境における報酬は明確に定義され、計算が容易であるが、報酬評価は、例えば分子最適化タスクにおいて、状態の評価や報酬の定量化のために計算上要求されるシミュレーションや実験が必要となるような、多くの実環境環境においてボトルネックとなる。
したがって、膨大な計算資源と時間なしでは、トレーニングは禁止的に高価になる可能性がある。
本稿では,ニューラルネットワークでモデル化した報酬に代えて,アクティブな学習コンポーネントを用いたトレーニングにおいて,状態の非定常性と報酬分布に対処することにより,この問題を軽減することを提案する。
提案手法(強化学習に要する報酬を積極的に学習する)を用いて,複雑な実環境においてエージェントをより高速に訓練できることを実証した。
強化学習手法を新しい領域に応用することで,化学,材料科学,工学における実世界の最適化問題に対する興味深く非自明な解決法を見いだせることを示す。
関連論文リスト
- Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications [0.0]
本稿では,強化学習アルゴリズムの効率性と有効性を高めるために,報酬工学と報酬形成の重要性を強調する。
強化学習の大幅な進歩にもかかわらず、いくつかの制限が続いた。
主要な課題の1つは、多くの現実世界のシナリオにおける報酬のまばらで遅れた性質である。
実世界の環境を正確にモデル化することの複雑さと強化学習アルゴリズムの計算要求は、依然としてかなりの障害である。
論文 参考訳(メタデータ) (2024-07-22T09:28:12Z) - Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。
その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T15:53:13Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。