論文の概要: Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples
- arxiv url: http://arxiv.org/abs/2006.15714v4
- Date: Sat, 3 Jul 2021 01:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:07:34.795115
- Title: Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples
- Title(参考訳): クエリと反例を用いたアクティブ有限逆オートマトン推論と強化学習
- Authors: Zhe Xu, Bo Wu, Aditya Ojha, Daniel Neider, Ufuk Topcu
- Abstract要約: 深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.31937554018045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the fact that deep reinforcement learning (RL) has surpassed
human-level performances in various tasks, it still has several fundamental
challenges. First, most RL methods require intensive data from the exploration
of the environment to achieve satisfactory performance. Second, the use of
neural networks in RL renders it hard to interpret the internals of the system
in a way that humans can understand. To address these two challenges, we
propose a framework that enables an RL agent to reason over its exploration
process and distill high-level knowledge for effectively guiding its future
explorations. Specifically, we propose a novel RL algorithm that learns
high-level knowledge in the form of a finite reward automaton by using the L*
learning algorithm. We prove that in episodic RL, a finite reward automaton can
express any non-Markovian bounded reward functions with finitely many reward
values and approximate any non-Markovian bounded reward function (with
infinitely many reward values) with arbitrary precision. We also provide a
lower bound for the episode length such that the proposed RL approach almost
surely converges to an optimal policy in the limit. We test this approach on
two RL environments with non-Markovian reward functions, choosing a variety of
tasks with increasing complexity for each environment. We compare our algorithm
with the state-of-the-art RL algorithms for non-Markovian reward functions,
such as Joint Inference of Reward machines and Policies for RL (JIRP), Learning
Reward Machine (LRM), and Proximal Policy Optimization (PPO2). Our results show
that our algorithm converges to an optimal policy faster than other baseline
methods.
- Abstract(参考訳): 深層強化学習(RL)が様々なタスクにおける人間レベルのパフォーマンスを上回っているにもかかわらず、いくつかの根本的な課題がある。
第一に、ほとんどのRL法は、良好な性能を達成するために環境探索からの集中的なデータを必要とする。
第二に、RLにおけるニューラルネットワークの使用は、人間が理解できる方法でシステムの内部を解釈することが困難である。
これら2つの課題に対処するために,RLエージェントが探索過程を推論し,将来探査を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高度な知識を学習する新しいRLアルゴリズムを提案する。
エピソディック rl において、有限報酬オートマトンは有限個の報酬値を持つ任意の非マルコフ有界報酬関数を表現でき、任意の精度で任意の非マルコフ有界報酬関数(無限個の報酬値を持つ)を近似できる。
また,提案したRLアプローチがほぼ確実に限界の最適ポリシーに収束するように,エピソード長の低い境界を与える。
非マルコフ報酬関数を持つ2つのrl環境でこのアプローチをテストし、各環境の複雑さが増す様々なタスクを選択する。
本アルゴリズムを非マルコフ的報酬関数に対する最先端のrlアルゴリズムと比較し、報酬機械とrl(jirp)のポリシーの合同推論、学習報酬機械(lrm)、近位政策最適化(ppo2)を行った。
その結果,本アルゴリズムは他のベースライン手法よりも高速な最適ポリシーに収束することがわかった。
関連論文リスト
- Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach [12.132416927711036]
本稿では,直感的戦略による報酬形成プロセスの簡略化を目的としたRL手法を提案する。
制約付き多目的RL(CMORL)フレームワークにおいて,複数の報酬関数とコスト関数を定義する。
逐次的な複雑な動きを含むタスクに対しては、タスクを異なるステージに分割し、各ステージに対する複数の報酬とコストを定義します。
論文 参考訳(メタデータ) (2024-09-24T05:25:24Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - To the Max: Reinventing Reward in Reinforcement Learning [1.5498250598583487]
強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
我々は、エージェントが累積報酬ではなく最大値を最適化するtextitmax-reward RLを紹介した。
実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-02-02T12:29:18Z) - Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning [26.067411894141863]
報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T12:36:09Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。