論文の概要: Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks
- arxiv url: http://arxiv.org/abs/2007.01498v1
- Date: Fri, 3 Jul 2020 05:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:17:21.179709
- Title: Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks
- Title(参考訳): 学習課題継続のための時間論理に基づく逆整形
- Authors: Yuqian Jiang, Sudarshanan Bharadwaj, Bo Wu, Rishi Shah, Ufuk Topcu,
Peter Stone
- Abstract要約: 継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
- 参考スコア(独自算出の注目度): 57.17673320237597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In continuing tasks, average-reward reinforcement learning may be a more
appropriate problem formulation than the more common discounted reward
formulation. As usual, learning an optimal policy in this setting typically
requires a large amount of training experiences. Reward shaping is a common
approach for incorporating domain knowledge into reinforcement learning in
order to speed up convergence to an optimal policy. However, to the best of our
knowledge, the theoretical properties of reward shaping have thus far only been
established in the discounted setting. This paper presents the first reward
shaping framework for average-reward learning and proves that, under standard
assumptions, the optimal policy under the original reward function can be
recovered. In order to avoid the need for manual construction of the shaping
function, we introduce a method for utilizing domain knowledge expressed as a
temporal logic formula. The formula is automatically translated to a shaping
function that provides additional reward throughout the learning process. We
evaluate the proposed method on three continuing tasks. In all cases, shaping
speeds up the average-reward learning rate without any reduction in the
performance of the learned policy compared to relevant baselines.
- Abstract(参考訳): 継続課題では、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である。
通常のように、この設定で最適なポリシーを学ぶには、多くのトレーニング経験が必要です。
報酬形成は、最適方針への収束を早めるために強化学習にドメイン知識を組み込む一般的なアプローチです。
しかし、我々の知る限りでは、これまでのところ報酬のシェーピングの理論的な性質は割引設定でしか確立されていない。
本稿では,平均回帰学習のための最初の報酬形成枠組みを示し,標準仮定の下では,元の報酬関数に基づく最適方針を回復できることを示す。
整形関数を手動で構築する必要を回避するため,時間論理式として表現されたドメイン知識を活用する手法を提案する。
公式は自動的に整形関数に変換され、学習プロセス全体を通して追加の報酬を与える。
提案手法を3つの継続タスクで評価する。
いずれの場合も、学習方針の性能を関連するベースラインと比較して低下させることなく、平均逆学習率を高速化する。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Formalising the Foundations of Discrete Reinforcement Learning in
Isabelle/HOL [0.0]
我々は、動的プログラミングに必要な基礎と、そのようなプロセスに対する強化学習エージェントの使用に焦点を当てる。
我々は、割引係数が1以下であるような、普遍的に最適な政策の存在を証明している。
最後に、値反復とポリシーアルゴリズムが有限時間で機能することを証明し、それぞれにエプシロン最適化と完全最適ポリシーを生成する。
論文 参考訳(メタデータ) (2021-12-11T14:38:36Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。