論文の概要: A Validation Tool for Designing Reinforcement Learning Environments
- arxiv url: http://arxiv.org/abs/2112.05519v1
- Date: Fri, 10 Dec 2021 13:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 18:45:25.852797
- Title: A Validation Tool for Designing Reinforcement Learning Environments
- Title(参考訳): 強化学習環境設計のための検証ツール
- Authors: Ruiyang Xu and Zhengxing Chen
- Abstract要約: 本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has gained increasing attraction in the academia
and tech industry with launches to a variety of impactful applications and
products. Although research is being actively conducted on many fronts (e.g.,
offline RL, performance, etc.), many RL practitioners face a challenge that has
been largely ignored: determine whether a designed Markov Decision Process
(MDP) is valid and meaningful. This study proposes a heuristic-based feature
analysis method to validate whether an MDP is well formulated. We believe an
MDP suitable for applying RL should contain a set of state features that are
both sensitive to actions and predictive in rewards. We tested our method in
constructed environments showing that our approach can identify certain invalid
environment formulations. As far as we know, performing validity analysis for
RL problem formulation is a novel direction. We envision that our tool will
serve as a motivational example to help practitioners apply RL in real-world
problems more easily.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、さまざまなインパクトのあるアプリケーションや製品の提供によって、学術や技術産業の注目を集めている。
多くの分野で研究が活発に行われているが(例えば、オフラインのRL、パフォーマンスなど)、多くのRL実践者は、設計されたマルコフ決定プロセス(MDP)が有効で有意義かどうかを判断する、という課題に直面している。
本研究では,MDPが十分に定式化されているかどうかを検証するためのヒューリスティックな特徴分析手法を提案する。
我々は,RLの適用に適したMDPには,行動に敏感な状態特徴と報奨の予測の両方を含むべきだと考えている。
提案手法を構築環境において検証し, 提案手法が有効でない環境を定式化できることを示す。
我々の知る限り、RL問題定式化の妥当性分析は、新しい方向である。
我々は,実践者が実世界の問題にRLをより容易に適用できるように,我々のツールがモチベーションの例として機能することを期待している。
関連論文リスト
- Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning [1.4711121887106535]
深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。
MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
論文 参考訳(メタデータ) (2022-10-16T18:51:55Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Reinforcement Learning using Guided Observability [26.307025803058714]
強化学習を部分的な可観測性に対処するためのシンプルで効率的なアプローチを提案します。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
離散部分可観測性Markov決定プロセス(POMDP)ベンチマーク問題および連続部分可観測性MuJoCoおよびOpenAIジムタスクにおける包括的な評価は、PO-GRLがパフォーマンスを向上させることを示しています。
論文 参考訳(メタデータ) (2021-04-22T10:47:35Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。