論文の概要: Maximally Permissive Reward Machines
- arxiv url: http://arxiv.org/abs/2408.08059v1
- Date: Thu, 15 Aug 2024 09:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:16:19.032359
- Title: Maximally Permissive Reward Machines
- Title(参考訳): 最大許容リワードマシン
- Authors: Giovanni Varricchione, Natasha Alechina, Mehdi Dastani, Brian Logan,
- Abstract要約: 目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
- 参考スコア(独自算出の注目度): 8.425937972214667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward machines allow the definition of rewards for temporally extended tasks and behaviors. Specifying "informative" reward machines can be challenging. One way to address this is to generate reward machines from a high-level abstract description of the learning environment, using techniques such as AI planning. However, previous planning-based approaches generate a reward machine based on a single (sequential or partial-order) plan, and do not allow maximum flexibility to the learning agent. In this paper we propose a new approach to synthesising reward machines which is based on the set of partial order plans for a goal. We prove that learning using such "maximally permissive" reward machines results in higher rewards than learning using RMs based on a single plan. We present experimental results which support our theoretical claims by showing that our approach obtains higher rewards than the single-plan approach in practice.
- Abstract(参考訳): リワードマシンは、時間的に拡張されたタスクや振る舞いに対する報酬の定義を可能にする。
報酬マシンの特定は困難である。
これを解決する方法の1つは、AI計画のような技術を使用して、学習環境の高度な抽象的な記述から報酬機を生成することである。
しかし、従来の計画に基づくアプローチでは、単一の(順序または部分順序)プランに基づいて報酬マシンを生成し、学習エージェントに最大限の柔軟性を持たせることはできない。
本稿では,目標に対する部分順序計画の集合に基づく報酬機を合成するための新しいアプローチを提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
本研究は,本手法が実際に実施されている単一計画手法よりも高い報酬を得ることを示すことによって,我々の理論的主張を支持する実験結果を示す。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with
Symbolic Reward Machines [7.661766773170363]
不特定報酬は、サンプル効率を低下させ、強化学習問題において望ましくない振る舞いを誘発することができる。
本稿では,報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。
論文 参考訳(メタデータ) (2022-04-20T20:22:00Z) - Learning Probabilistic Reward Machines from Non-Markovian Stochastic
Reward Processes [8.800797834097764]
非マルコフ報酬の表現として確率的報酬機(PRM)を導入する。
本稿では,決定プロセスからPRMを学習するアルゴリズムを提案するとともに,所定の意思決定方針のPRM表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-09T19:00:39Z) - Disentangled Planning and Control in Vision Based Robotics via Reward
Machines [13.486750561133634]
ロボットタスクのビジョンベースのポリシーの学習速度を向上させるために、Deep Q-Learning Agent with a Reward Machine (DQRM)を増強します。
報酬機(英: reward machine、RM)は、タスクを個別の計画グラフに分解し、エージェントに報酬関数を付与してタスク完了に向けて誘導する有限状態機械である。
論文 参考訳(メタデータ) (2020-12-28T19:54:40Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。