論文の概要: Numeric Reward Machines
- arxiv url: http://arxiv.org/abs/2404.19370v1
- Date: Tue, 30 Apr 2024 08:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:54:33.938397
- Title: Numeric Reward Machines
- Title(参考訳): 数値リワード機
- Authors: Kristina Levina, Nikolaos Pappas, Athanasios Karapantelakis, Aneta Vulgarakis Feljan, Jendrik Seipp,
- Abstract要約: 報奨機には数値ブールと数値の2種類がある。
私たちは新しいアプローチをCraftドメインのベースライン報酬マシンと比較します。
以上の結果から,我々の新しいアプローチはベースラインアプローチを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 11.836375091670483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward machines inform reinforcement learning agents about the reward structure of the environment and often drastically speed up the learning process. However, reward machines only accept Boolean features such as robot-reached-gold. Consequently, many inherently numeric tasks cannot profit from the guidance offered by reward machines. To address this gap, we aim to extend reward machines with numeric features such as distance-to-gold. For this, we present two types of reward machines: numeric-Boolean and numeric. In a numeric-Boolean reward machine, distance-to-gold is emulated by two Boolean features distance-to-gold-decreased and robot-reached-gold. In a numeric reward machine, distance-to-gold is used directly alongside the Boolean feature robot-reached-gold. We compare our new approaches to a baseline reward machine in the Craft domain, where the numeric feature is the agent-to-target distance. We use cross-product Q-learning, Q-learning with counter-factual experiences, and the options framework for learning. Our experimental results show that our new approaches significantly outperform the baseline approach. Extending reward machines with numeric features opens up new possibilities of using reward machines in inherently numeric tasks.
- Abstract(参考訳): リワードマシンは、環境の報酬構造について強化学習エージェントに通知し、しばしば学習プロセスを劇的に高速化する。
しかし、報酬機は、ロボットリーチゴールドのようなブール機能しか受け入れない。
したがって、本質的に数値的なタスクの多くは、報酬機が提供するガイダンスから利益を得ることができない。
このギャップに対処するため、我々は報酬機に距離・金などの数値的特徴を持たせることを目的としている。
これに対し、報奨機には数値ブールと数値の2種類がある。
数値報奨機において、距離から金までの距離は、距離から金までとロボットまでの距離の2つの特徴によってエミュレートされる。
数値報酬機では、Boolean機能ロボットラッチゴールドと並んで、距離と金が直接使用される。
我々は、新しいアプローチをCraftドメインのベースライン報酬マシンと比較し、数値的特徴はエージェント・ツー・ターゲット距離である。
クロスプロダクトなQ-ラーニング、対実体験を備えたQ-ラーニング、学習のためのオプションフレームワークを使用します。
実験の結果,我々の新しいアプローチはベースラインアプローチを著しく上回ることがわかった。
数値的特徴を持つ報酬機械の拡張は、本質的に数値的なタスクで報酬機械を使用する新たな可能性を開く。
関連論文リスト
- SuPLE: Robot Learning with Lyapunov Rewards [4.424170214926035]
外部の仮定を加えることなく、ダイナミクスの特性を使ってシステムに適切な報酬を生み出す。
我々は,「正のリアプノフ指数」(SuPLE)が,そのような報酬の設計の有力な候補であることを示す。
これは、任意の状態で訓練軌道を開始する必要をなくし、補助探査としても知られる。
論文 参考訳(メタデータ) (2024-11-20T03:20:50Z) - Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov [2.486161976966064]
本稿では,非マルコフ報酬関数を等価なマルコフ関数に変換するためのフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
私たちは、Officeworldドメインでブラックボックス、非マルコフ報酬関数を学習することで、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2024-01-20T21:09:27Z) - Reward Finetuning for Faster and More Accurate Unsupervised Object
Discovery [64.41455104593304]
Reinforcement Learning from Human Feedback (RLHF)は、機械学習モデルを改善し、それを人間の好みに合わせる。
本稿では,RL法と類似した手法を非教師対象発見に適用することを提案する。
私たちは、我々のアプローチがより正確であるだけでなく、訓練よりも桁違いに高速であることを示した。
論文 参考訳(メタデータ) (2023-10-29T17:03:12Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。