論文の概要: Reinforcement Learning with Stochastic Reward Machines
- arxiv url: http://arxiv.org/abs/2510.14837v1
- Date: Thu, 16 Oct 2025 16:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.942211
- Title: Reinforcement Learning with Stochastic Reward Machines
- Title(参考訳): 確率的リワードマシンによる強化学習
- Authors: Jan Corazza, Ivan Gavran, Daniel Neider,
- Abstract要約: 報奨機と呼ばれる新しい種類の報奨機と、それらを学習するためのアルゴリズムを導入する。
我々のアルゴリズムは制約解に基づいて、強化学習エージェントの探索から最小限の報酬機を学習する。
- 参考スコア(独自算出の注目度): 5.345748208068876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward machines are an established tool for dealing with reinforcement learning problems in which rewards are sparse and depend on complex sequences of actions. However, existing algorithms for learning reward machines assume an overly idealized setting where rewards have to be free of noise. To overcome this practical limitation, we introduce a novel type of reward machines, called stochastic reward machines, and an algorithm for learning them. Our algorithm, based on constraint solving, learns minimal stochastic reward machines from the explorations of a reinforcement learning agent. This algorithm can easily be paired with existing reinforcement learning algorithms for reward machines and guarantees to converge to an optimal policy in the limit. We demonstrate the effectiveness of our algorithm in two case studies and show that it outperforms both existing methods and a naive approach for handling noisy reward functions.
- Abstract(参考訳): リワードマシンは、報酬がまばらで複雑な行動系列に依存する強化学習問題に対処するための確立されたツールである。
しかし、既存の報奨機を学習するためのアルゴリズムは、報奨機がノイズを伴わないような過度に理想化された設定を前提としている。
この限界を克服するために,確率的報奨機と呼ばれる新しいタイプの報奨機と,それらを学習するためのアルゴリズムを導入する。
本アルゴリズムは,制約解に基づいて,強化学習エージェントの探索から最小確率報酬機を学習する。
このアルゴリズムは、報酬機のための既存の強化学習アルゴリズムと簡単に組み合わせられ、その限界において最適なポリシーに収束することが保証される。
2つのケーススタディにおいて,本アルゴリズムの有効性を実証し,ノイズ報酬関数処理における既存手法と単純アプローチの両方に優れることを示す。
関連論文リスト
- Provably Efficient Exploration in Reward Machines with Low Regret [20.076030507802553]
非マルコフ報酬による意思決定過程の強化学習について検討する。
我々の主な貢献は確率的報酬機を含む意思決定プロセスのためのモデルベースRLアルゴリズムである。
我々は、その後悔に対する高い確率と非漸近的な境界を導き、既存のアルゴリズムに対する後悔の点から、その利益を実証する。
論文 参考訳(メタデータ) (2024-12-26T12:25:04Z) - Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Automata Learning from Preference and Equivalence Queries [17.33092604696224]
本稿では,能動オートマトン学習問題の新たな変種として,嗜好クエリを用いて有限オートマトンを積極的に学習する手法を提案する。
ReMAPは、クエリの複雑さの最小限の複雑さを、正確な等価クエリの下で正確に推測することが保証されている。
実験により,REMAPを大規模オートマトンにスケールすることは,一貫した教師から正しいオートマトンを学習するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-08-18T04:49:45Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。