論文の概要: Omega-Regular Reward Machines
- arxiv url: http://arxiv.org/abs/2308.07469v1
- Date: Mon, 14 Aug 2023 21:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:40:07.218400
- Title: Omega-Regular Reward Machines
- Title(参考訳): オメガレギュラー報酬機
- Authors: Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh
Trivedi, Dominik Wojtczak
- Abstract要約: 本稿では,オメガ正規言語に報酬機を統合するオメガ正規言語報酬機を紹介する。
モデルのないRLアルゴリズムを用いて,オメガエグジュラル報酬機に対するエプシロン最適戦略を計算する。
- 参考スコア(独自算出の注目度): 11.917126383341593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a powerful approach for training agents to
perform tasks, but designing an appropriate reward mechanism is critical to its
success. However, in many cases, the complexity of the learning objectives goes
beyond the capabilities of the Markovian assumption, necessitating a more
sophisticated reward mechanism. Reward machines and omega-regular languages are
two formalisms used to express non-Markovian rewards for quantitative and
qualitative objectives, respectively. This paper introduces omega-regular
reward machines, which integrate reward machines with omega-regular languages
to enable an expressive and effective reward mechanism for RL. We present a
model-free RL algorithm to compute epsilon-optimal strategies against
omega-egular reward machines and evaluate the effectiveness of the proposed
algorithm through experiments.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、訓練エージェントがタスクを実行するための強力なアプローチであるが、適切な報酬メカニズムを設計することは、その成功に不可欠である。
しかし、多くの場合、学習目的の複雑さはマルコフの仮定の能力を超え、より洗練された報酬機構を必要とする。
逆機械(Reward machine)とオメガ正則言語(omega-regular language)は、量的目的と定性的目的に対する非マルコフ的報酬を表現するために用いられる2つの形式主義である。
本稿では,報酬機械とオメガレギュラー言語を統合し,rlの表現力と効果的な報酬機構を実現するオメガレギュラー報酬機を提案する。
本稿では,オメガエグジュラル報酬機に対するエプシロン最適戦略を計算し,実験により提案アルゴリズムの有効性を評価するためのモデルフリーなRLアルゴリズムを提案する。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Logic-based Reward Shaping for Multi-Agent Reinforcement Learning [1.5483078145498084]
強化学習は、その環境から学び、観察された報酬を最大化するために探索に大きく依存する。
従来の作業では、タスクに基づいて報酬関数を合成する自動メカニズムを提供するために、オートマタとロジックベースの報酬整形と環境仮定を組み合わせた。
マルチエージェント強化学習における論理に基づく報酬形成は,様々なシナリオやタスクに対してどのように設計できるかを考察する。
論文 参考訳(メタデータ) (2022-06-17T16:30:27Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with
Symbolic Reward Machines [7.661766773170363]
不特定報酬は、サンプル効率を低下させ、強化学習問題において望ましくない振る舞いを誘発することができる。
本稿では,報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。
論文 参考訳(メタデータ) (2022-04-20T20:22:00Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z) - FMore: An Incentive Scheme of Multi-dimensional Auction for Federated
Learning in MEC [17.370238999812685]
本稿では,K当選者の多次元調達オークションを用いたインセンティブメカニズムFMoreを提案する。
我々の提案するFMoreは軽量でインセンティブに適合するだけでなく、学習に参加するために低コストで高品質なエッジノードを奨励します。
論文 参考訳(メタデータ) (2020-02-22T13:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。