論文の概要: Reinforcement Learning for Classical Planning: Viewing Heuristics as
Dense Reward Generators
- arxiv url: http://arxiv.org/abs/2109.14830v1
- Date: Thu, 30 Sep 2021 03:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:06:30.178646
- Title: Reinforcement Learning for Classical Planning: Viewing Heuristics as
Dense Reward Generators
- Title(参考訳): 古典的計画のための強化学習--密集型報酬生成器としてのヒューリスティックス観
- Authors: Clement Gehring, Masataro Asai, Rohan Chitnis, Tom Silver, Leslie Pack
Kaelbling, Shirin Sohrabi, Michael Katz
- Abstract要約: 本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存関数を活用することを提案する。
これらの古典は、スパース・リワード問題を緩和し、RLエージェントが残余としてドメイン固有の値関数を学習できるようにするために、密度の高い報酬生成器として機能する。
いくつかの古典的計画領域において、古典論理を RL に用いた場合、スパース逆 RL と比較してサンプル効率が良いことを実証する。
- 参考スコア(独自算出の注目度): 54.6441336539206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have led to a growing interest
in applying RL to classical planning domains or applying classical planning
methods to some complex RL domains. However, the long-horizon goal-based
problems found in classical planning lead to sparse rewards for RL, making
direct application inefficient. In this paper, we propose to leverage
domain-independent heuristic functions commonly used in the classical planning
literature to improve the sample efficiency of RL. These classical heuristics
act as dense reward generators to alleviate the sparse-rewards issue and enable
our RL agent to learn domain-specific value functions as residuals on these
heuristics, making learning easier. Correct application of this technique
requires consolidating the discounted metric used in RL and the non-discounted
metric used in heuristics. We implement the value functions using Neural Logic
Machines, a neural network architecture designed for grounded first-order logic
inputs. We demonstrate on several classical planning domains that using
classical heuristics for RL allows for good sample efficiency compared to
sparse-reward RL. We further show that our learned value functions generalize
to novel problem instances in the same domain.
- Abstract(参考訳): 近年の強化学習(RL)は、古典的な計画領域にRLを適用することや、複雑なRLドメインに古典的な計画手法を適用することへの関心が高まっている。
しかし、古典的な計画に見られる長いホリゾンの目標ベースの問題は、rlに対する報酬を分散させ、直接のアプリケーション効率を損なう。
本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存ヒューリスティック関数を活用することを提案する。
これらの古典的ヒューリスティックは、スパース・リワード問題を緩和し、RLエージェントがこれらのヒューリスティックの残余としてドメイン固有の値関数を学習し、学習を容易にするために、密度の高い報酬生成器として機能する。
この手法の正しい応用には、RLで使われる割引計量とヒューリスティックスで使われる非割引計量を統合する必要がある。
我々は,一階述語論理入力のためのニューラルネットワークアーキテクチャであるNeural Logic Machinesを用いて,値関数を実装した。
いくつかの古典的計画領域において、古典的ヒューリスティックスを用いて RL をスパース・リワード RL と比較してよいサンプル効率が得られることを示す。
さらに、学習した値関数が同一領域における新しい問題インスタンスに一般化されることを示す。
関連論文リスト
- Reinforcement Learning for Dynamic Memory Allocation [0.0]
本稿では,RLエージェントがシステムとのインタラクションから連続的に学習し,メモリ管理の戦術を改善する枠組みを提案する。
その結果、RLは従来のアロケーション戦略にマッチし、超えるエージェントを訓練できることがわかった。
また,アロケータの複雑な要求パターン処理能力を高めるために,従来のアロケーション要求を利用した履歴対応ポリシの可能性についても検討する。
論文 参考訳(メタデータ) (2024-10-20T20:13:46Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Computational Benefits of Intermediate Rewards for Hierarchical Planning [42.579256546135866]
中間報酬を用いると、成功政策を見つける際の計算の複雑さが減少するが、最短経路を見つけることは保証されない。
また、Q-learningや他の人気のある深層RLアルゴリズムを用いて、MiniGrid環境に関する広範な実験を行い、理論結果を裏付ける。
論文 参考訳(メタデータ) (2021-07-08T16:39:13Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。