論文の概要: Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.03950v2
- Date: Mon, 17 Jan 2022 18:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:45:19.636344
- Title: Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning
- Title(参考訳): Reward Machines:Reinforcement LearningにおけるReward関数構造の爆発
- Authors: Rodrigo Toro Icarte, Toryn Q. Klassen, Richard Valenzano, Sheila A.
McIlraith
- Abstract要約: 報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
- 参考スコア(独自算出の注目度): 22.242379207077217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) methods usually treat reward functions as black
boxes. As such, these methods must extensively interact with the environment in
order to discover rewards and optimal policies. In most RL applications,
however, users have to program the reward function and, hence, there is the
opportunity to make the reward function visible -- to show the reward
function's code to the RL agent so it can exploit the function's internal
structure to learn optimal policies in a more sample efficient manner. In this
paper, we show how to accomplish this idea in two steps. First, we propose
reward machines, a type of finite state machine that supports the specification
of reward functions while exposing reward function structure. We then describe
different methodologies to exploit this structure to support learning,
including automated reward shaping, task decomposition, and counterfactual
reasoning with off-policy learning. Experiments on tabular and continuous
domains, across different tasks and RL agents, show the benefits of exploiting
reward structure with respect to sample efficiency and the quality of resultant
policies. Finally, by virtue of being a form of finite state machine, reward
machines have the expressive power of a regular language and as such support
loops, sequences and conditionals, as well as the expression of temporally
extended properties typical of linear temporal logic and non-Markovian reward
specification.
- Abstract(参考訳): 強化学習(RL)法は通常、報酬関数をブラックボックスとして扱う。
そのため、報酬と最適ポリシーを発見するためには、環境と広範囲に対話する必要がある。
しかし、ほとんどのRLアプリケーションでは、ユーザーは報酬関数をプログラムする必要があるため、報酬関数のコードをRLエージェントに示す機会がある。
本稿では,このアイデアを2つのステップで実現する方法を示す。
まず,報酬関数構造を露呈しながら報酬関数の特定を支援する有限状態機械の一種である報酬機械を提案する。
次に,この構造を学習支援に活用するための方法論として,報酬の自動生成,タスクの分解,オフポリシー学習による反事実推論などについて述べる。
表状および連続的なドメインの実験は、異なるタスクやRLエージェントを通して、サンプル効率と結果のポリシーの品質に関して報酬構造を利用する利点を示している。
最後に、有限状態機械の形式であることにより、報酬機械は正規言語の表現力を有し、補助ループ、シーケンス、条件式、および線形時相論理や非マルコフ的報酬仕様に典型的な時間拡張特性を表現することができる。
関連論文リスト
- Automated Rewards via LLM-Generated Progress Functions [47.50772243693897]
大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。
本稿では,挑戦的なBi-DexHandsベンチマーク上で,最先端のポリシーを生成可能なLLM駆動の報酬生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T18:41:15Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Preprocessing Reward Functions for Interpretability [2.538209532048867]
報酬関数の本質的な構造を、まずそれらを単純だが等価な報酬関数に前処理することで利用することを提案する。
私たちの経験的評価では、前処理された報酬は、元の報酬よりも理解しやすいことがしばしば示されています。
論文 参考訳(メタデータ) (2022-03-25T10:19:35Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。