Fugu-MT 論文翻訳(概要): Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning

論文の概要: Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2010.03950v2
Date: Mon, 17 Jan 2022 18:12:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 05:45:19.636344
Title: Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning
Title（参考訳）: Reward Machines:Reinforcement LearningにおけるReward関数構造の爆発
Authors: Rodrigo Toro Icarte, Toryn Q. Klassen, Richard Valenzano, Sheila A. McIlraith
Abstract要約: 報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
参考スコア（独自算出の注目度）: 22.242379207077217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) methods usually treat reward functions as black boxes. As such, these methods must extensively interact with the environment in order to discover rewards and optimal policies. In most RL applications, however, users have to program the reward function and, hence, there is the opportunity to make the reward function visible -- to show the reward function's code to the RL agent so it can exploit the function's internal structure to learn optimal policies in a more sample efficient manner. In this paper, we show how to accomplish this idea in two steps. First, we propose reward machines, a type of finite state machine that supports the specification of reward functions while exposing reward function structure. We then describe different methodologies to exploit this structure to support learning, including automated reward shaping, task decomposition, and counterfactual reasoning with off-policy learning. Experiments on tabular and continuous domains, across different tasks and RL agents, show the benefits of exploiting reward structure with respect to sample efficiency and the quality of resultant policies. Finally, by virtue of being a form of finite state machine, reward machines have the expressive power of a regular language and as such support loops, sequences and conditionals, as well as the expression of temporally extended properties typical of linear temporal logic and non-Markovian reward specification.
Abstract（参考訳）: 強化学習(RL)法は通常、報酬関数をブラックボックスとして扱う。そのため、報酬と最適ポリシーを発見するためには、環境と広範囲に対話する必要がある。しかし、ほとんどのRLアプリケーションでは、ユーザーは報酬関数をプログラムする必要があるため、報酬関数のコードをRLエージェントに示す機会がある。本稿では,このアイデアを2つのステップで実現する方法を示す。まず,報酬関数構造を露呈しながら報酬関数の特定を支援する有限状態機械の一種である報酬機械を提案する。次に,この構造を学習支援に活用するための方法論として,報酬の自動生成,タスクの分解,オフポリシー学習による反事実推論などについて述べる。表状および連続的なドメインの実験は、異なるタスクやRLエージェントを通して、サンプル効率と結果のポリシーの品質に関して報酬構造を利用する利点を示している。最後に、有限状態機械の形式であることにより、報酬機械は正規言語の表現力を有し、補助ループ、シーケンス、条件式、および線形時相論理や非マルコフ的報酬仕様に典型的な時間拡張特性を表現することができる。

関連論文リスト

Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。 SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-04-22T21:09:33Z)
Automated Rewards via LLM-Generated Progress Functions [47.50772243693897]
大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。本稿では,挑戦的なBi-DexHandsベンチマーク上で,最先端のポリシーを生成可能なLLM駆動の報酬生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-11T18:41:15Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
STARC: A General Framework For Quantifying Differences Between Reward Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文参考訳（メタデータ） (2023-09-26T20:31:19Z)
Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文参考訳（メタデータ） (2023-05-28T02:12:00Z)
Preprocessing Reward Functions for Interpretability [2.538209532048867]
報酬関数の本質的な構造を、まずそれらを単純だが等価な報酬関数に前処理することで利用することを提案する。私たちの経験的評価では、前処理された報酬は、元の報酬よりも理解しやすいことがしばしば示されています。
論文参考訳（メタデータ） (2022-03-25T10:19:35Z)
Model-Free Reinforcement Learning for Symbolic Automata-encoded Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。本稿では,記号オートマトンを用いた形式仕様を提案する。
論文参考訳（メタデータ） (2022-02-04T21:54:36Z)
Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文参考訳（メタデータ） (2022-01-25T03:48:00Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T10:17:45Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文参考訳（メタデータ） (2020-06-19T17:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。