論文の概要: Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function
- arxiv url: http://arxiv.org/abs/2302.09676v2
- Date: Fri, 1 Sep 2023 18:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 06:24:06.999251
- Title: Leveraging Prior Knowledge in Reinforcement Learning via Double-Sided
Bounds on the Value Function
- Title(参考訳): 価値関数の両面境界による強化学習における事前知識の活用
- Authors: Jacob Adamczyk, Stas Tiomkin, Rahul Kulkarni
- Abstract要約: 本稿では、値関数の任意の近似を用いて、関心の最適値関数上の二辺境界を導出する方法を示す。
連続状態とアクション空間のエラー解析でフレームワークを拡張します。
- 参考スコア(独自算出の注目度): 4.48890356952206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An agent's ability to leverage past experience is critical for efficiently
solving new tasks. Approximate solutions for new tasks can be obtained from
previously derived value functions, as demonstrated by research on transfer
learning, curriculum learning, and compositionality. However, prior work has
primarily focused on using value functions to obtain zero-shot approximations
for solutions to a new task. In this work, we show how an arbitrary
approximation for the value function can be used to derive double-sided bounds
on the optimal value function of interest. We further extend the framework with
error analysis for continuous state and action spaces. The derived results lead
to new approaches for clipping during training which we validate numerically in
simple domains.
- Abstract(参考訳): 過去の経験を活かすエージェントの能力は、新しいタスクを効率的に解決するために重要です。
新しいタスクに対する近似解は、転送学習、カリキュラム学習、構成性の研究によって示されるように、以前に導かれた値関数から得られる。
しかし、以前の研究は主に、新しいタスクに対するソリューションのゼロショット近似を得るために値関数を使うことに重点を置いてきた。
本研究では、値関数に対する任意の近似を用いて、興味のある最適値関数の両側境界を導出する方法を示す。
さらに,連続状態と動作空間のエラー解析によりフレームワークを拡張した。
得られた結果は,単純な領域で数値的に検証する,訓練中のクリップングの新しいアプローチに繋がる。
関連論文リスト
- Boosting Soft Q-Learning by Bounding [4.8748194765816955]
任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
派生したバウンダリは、トレーニングパフォーマンスを高めるための新しいアプローチにつながります。
論文 参考訳(メタデータ) (2024-06-26T03:02:22Z) - Bounding the Optimal Value Function in Compositional Reinforcement
Learning [2.7998963147546148]
複合タスクの最適解は、既知の原始タスクの解に関連付けられることを示す。
また、ゼロショットポリシーを使うことの後悔は、このクラスの関数に対して有界であることを示す。
論文 参考訳(メタデータ) (2023-03-05T03:06:59Z) - Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。