論文の概要: Pairwise Weights for Temporal Credit Assignment
- arxiv url: http://arxiv.org/abs/2102.04999v1
- Date: Tue, 9 Feb 2021 18:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:16:00.028683
- Title: Pairwise Weights for Temporal Credit Assignment
- Title(参考訳): Pairwise Weights for Temporal Credit Assignment
- Authors: Zeyu Zheng, Risto Vuorio, Richard Lewis, Satinder Singh
- Abstract要約: 州で取られた行動は、将来の報奨としてどのくらいの信用(または責任)を得るべきか?
これは強化学習(RL)における基本的な信用割当問題である
政策の通常のRLトレーニングにおいて,これらの重み関数を学習するためのメタグラディエントな手順を開発する。
私たちの経験的研究は、競合するアプローチよりも優れたパフォーマンスを達成するためのポリシーの学習中に、これらのペアウェイト関数を学習することがしばしば可能であることを示している。
- 参考スコア(独自算出の注目度): 20.532698866345964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much credit (or blame) should an action taken in a state get for a future
reward? This is the fundamental temporal credit assignment problem in
Reinforcement Learning (RL). One of the earliest and still most widely used
heuristics is to assign this credit based on a scalar coefficient $\lambda$
(treated as a hyperparameter) raised to the power of the time interval between
the state-action and the reward. In this empirical paper, we explore heuristics
based on more general pairwise weightings that are functions of the state in
which the action was taken, the state at the time of the reward, as well as the
time interval between the two. Of course it isn't clear what these pairwise
weight functions should be, and because they are too complex to be treated as
hyperparameters we develop a metagradient procedure for learning these weight
functions during the usual RL training of a policy. Our empirical work shows
that it is often possible to learn these pairwise weight functions during
learning of the policy to achieve better performance than competing approaches.
- Abstract(参考訳): 州の行動が将来の報酬を得るには、どのくらいの信用(または責任)が必要ですか?
これは強化学習(RL)における基本的な時間的信用割当問題である。
最も早く、まだ最も広く使用されているヒューリスティックスの1つは、状態作用と報酬の間の時間間隔のパワーに引き上げられたスカラー係数$\lambda$(ハイパーパラメータとして処理される)に基づいてこのクレジットを割り当てることである。
本稿では,アクションが取られた状態,報酬の時点の状態,および2つの状態の間の時間間隔である,より一般的なペアワイズ重み付けに基づくヒューリスティックスについて検討する。
もちろん、これらのペアワイズ重み関数がどのようなもので、ハイパーパラメータとして扱うには複雑すぎるため、ポリシーの通常のrlトレーニング中にこれらの重み関数を学ぶためのメタグラデーション手順を開発します。
私たちの実証的な研究は、競合するアプローチよりも優れたパフォーマンスを達成するためにポリシーの学習中にこれらのペアワイズウェイト関数を学ぶことがしばしば可能であることを示しています。
関連論文リスト
- Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-12-18T19:23:42Z) - Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - Reinforcement Learning with Non-Exponential Discounting [28.092095671829508]
本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
論文 参考訳(メタデータ) (2022-09-27T14:13:16Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Synthetic Returns for Long-Term Credit Assignment [25.55079294859312]
エージェントが州間の関連と任意の距離の将来の報酬を学習する状態関連学習を提案します。
私たちのimpalaベースのsrエージェントがatariスキーを25倍高速で解決できることを示しました。
論文 参考訳(メタデータ) (2021-02-24T17:43:02Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。