論文の概要: Compositionality and Bounds for Optimal Value Functions in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2302.09676v1
- Date: Sun, 19 Feb 2023 21:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:15:22.687462
- Title: Compositionality and Bounds for Optimal Value Functions in Reinforcement
Learning
- Title(参考訳): 強化学習における最適値関数の構成性と境界
- Authors: Jacob Adamczyk, Stas Tiomkin, Rahul Kulkarni
- Abstract要約: 以前解決された問題に対する解を再利用するエージェントの能力は、新しいタスクを効率的に学習するために重要である。
近年、強化学習における値関数の構成を用いた研究により、エージェントは原始的なタスクの解を用いて指数関数的に多くの新しいタスクの解を得ることができることが示されている。
ここでは、報酬関数の構造に制約のない一般合成関数の場合を考える。
- 参考スコア(独自算出の注目度): 2.470815298095903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An agent's ability to reuse solutions to previously solved problems is
critical for learning new tasks efficiently. Recent research using composition
of value functions in reinforcement learning has shown that agents can utilize
solutions of primitive tasks to obtain solutions for exponentially many new
tasks. However, previous work has relied on restrictive assumptions on the
dynamics, the method of composition, and the structure of reward functions.
Here we consider the case of general composition functions without any
restrictions on the structure of reward functions, applicable to both
deterministic and stochastic dynamics. For this general setup, we provide
bounds on the corresponding optimal value functions and characterize the value
of corresponding policies. The theoretical results derived lead to improvements
in training for both entropy-regularized and standard reinforcement learning,
which we validate with numerical simulations.
- Abstract(参考訳): エージェントが以前に解決した問題に対してソリューションを再利用する能力は、新しいタスクを効率的に学習するには不可欠である。
強化学習における価値関数の構成を用いた最近の研究は、エージェントが原始的なタスクの解を使って指数関数的に多くの新しいタスクの解を得ることができることを示した。
しかし、これまでの研究は力学、構成法、報酬関数の構造に制限的な仮定に依存していた。
ここでは, 報酬関数の構造を制約せずに一般合成関数の場合には, 決定論と確率力学の両方に適用できると考える。
この一般的な設定では、対応する最適値関数の境界を提供し、対応するポリシーの値を特徴付ける。
理論的な結果から,エントロピー正規化学習と標準強化学習の両方におけるトレーニングの改善が導かれ,数値シミュレーションにより検証した。
関連論文リスト
- Boosting Soft Q-Learning by Bounding [4.8748194765816955]
任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
派生したバウンダリは、トレーニングパフォーマンスを高めるための新しいアプローチにつながります。
論文 参考訳(メタデータ) (2024-06-26T03:02:22Z) - Bounding the Optimal Value Function in Compositional Reinforcement
Learning [2.7998963147546148]
複合タスクの最適解は、既知の原始タスクの解に関連付けられることを示す。
また、ゼロショットポリシーを使うことの後悔は、このクラスの関数に対して有界であることを示す。
論文 参考訳(メタデータ) (2023-03-05T03:06:59Z) - Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。