論文の概要: CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.01805v1
- Date: Mon, 3 Oct 2022 21:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:09:04.630239
- Title: CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning
- Title(参考訳): CostNet: ゴール指向強化学習のためのエンドツーエンドフレームワーク
- Authors: Per-Arne Andersen and Morten Goodwin and Ole-Christoffer Granmo
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.432068833600884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is a general framework concerned with an agent
that seeks to maximize rewards in an environment. The learning typically
happens through trial and error using explorative methods, such as
epsilon-greedy. There are two approaches, model-based and model-free
reinforcement learning, that show concrete results in several disciplines.
Model-based RL learns a model of the environment for learning the policy while
model-free approaches are fully explorative and exploitative without
considering the underlying environment dynamics. Model-free RL works
conceptually well in simulated environments, and empirical evidence suggests
that trial and error lead to a near-optimal behavior with enough training. On
the other hand, model-based RL aims to be sample efficient, and studies show
that it requires far less training in the real environment for learning a good
policy.
A significant challenge with RL is that it relies on a well-defined reward
function to work well for complex environments and such a reward function is
challenging to define. Goal-Directed RL is an alternative method that learns an
intrinsic reward function with emphasis on a few explored trajectories that
reveals the path to the goal state.
This paper introduces a novel reinforcement learning algorithm for predicting
the distance between two states in a Markov Decision Process. The learned
distance function works as an intrinsic reward that fuels the agent's learning.
Using the distance-metric as a reward, we show that the algorithm performs
comparably to model-free RL while having significantly better
sample-efficiently in several test environments.
- Abstract(参考訳): 強化学習(rl)は、環境における報酬を最大化しようとするエージェントに関する一般的なフレームワークである。
学習は通常、エプシロン・グリーディのような探索的手法を用いた試行錯誤によって行われる。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
モデルベースrlはポリシーを学ぶための環境のモデルを学び、モデルフリーなアプローチは基礎となる環境のダイナミクスを考慮せずに完全に探索的かつ搾取的です。
モデルのないRLは概念的にはシミュレーション環境でうまく機能し、試行錯誤が十分なトレーニングでほぼ最適動作をもたらすことを実証的な証拠として示している。
一方、モデルベースRLは、サンプル効率を目標としており、優れたポリシーを学ぶためには、実際の環境でのトレーニングをはるかに少なくする必要がある。
rlの大きな課題は、複雑な環境でうまく機能するために、明確に定義された報酬関数に依存することである。
ゴール指向RL(Goal-Directed RL)は、ゴール状態への道筋を明らかにするいくつかの探索的な軌道に重点を置き、本質的な報酬関数を学ぶ方法である。
本稿では,マルコフ決定過程における2つの状態間の距離を予測する新しい強化学習アルゴリズムを提案する。
学習距離関数は、エージェントの学習を刺激する内在的な報酬として機能する。
距離測定を報奨として, モデルのないRLに対して, 複数の試験環境において, サンプル効率が著しく向上し, 比較可能な性能を示す。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。