論文の概要: Reward Shaping with Dynamic Trajectory Aggregation
- arxiv url: http://arxiv.org/abs/2104.06163v1
- Date: Tue, 13 Apr 2021 13:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 19:54:54.564074
- Title: Reward Shaping with Dynamic Trajectory Aggregation
- Title(参考訳): 動的軌跡アグリゲーションによる報酬形成
- Authors: Takato Okudo and Seiji Yamada
- Abstract要約: ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
SARSA-RSは潜在的な機能を学び、それを取得する。
サブゴール系列を用いた軌道アグリゲーションを提案する。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning, which acquires a policy maximizing long-term rewards,
has been actively studied. Unfortunately, this learning type is too slow and
difficult to use in practical situations because the state-action space becomes
huge in real environments. The essential factor for learning efficiency is
rewards. Potential-based reward shaping is a basic method for enriching
rewards. This method is required to define a specific real-value function
called a potential function for every domain. It is often difficult to
represent the potential function directly. SARSA-RS learns the potential
function and acquires it. However, SARSA-RS can only be applied to the simple
environment. The bottleneck of this method is the aggregation of states to make
abstract states since it is almost impossible for designers to build an
aggregation function for all states. We propose a trajectory aggregation that
uses subgoal series. This method dynamically aggregates states in an episode
during trial and error with only the subgoal series and subgoal identification
function. It makes designer effort minimal and the application to environments
with high-dimensional observations possible. We obtained subgoal series from
participants for experiments. We conducted the experiments in three domains,
four-rooms(discrete states and discrete actions), pinball(continuous and
discrete), and picking(both continuous). We compared our method with a baseline
reinforcement learning algorithm and other subgoal-based methods, including
random subgoal and naive subgoal-based reward shaping. As a result, our reward
shaping outperformed all other methods in learning efficiency.
- Abstract(参考訳): 長期報酬を最大化する政策を取得する強化学習が活発に研究されている。
残念なことに、この学習タイプは、実際の環境では状態アクション空間が巨大になるため、現実的な状況ではあまりにも遅く、使いづらい。
効率を学ぶための重要な要素は報酬です。
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
この方法は、各領域に対するポテンシャル関数と呼ばれる特定の実値関数を定義する必要がある。
ポテンシャル関数を直接表現することはしばしば困難である。
SARSA-RSは潜在的な機能を学び、それを取得する。
しかし、SARSA-RSは単純な環境にのみ適用できる。
この手法のボトルネックは、設計者が全ての状態に対して集約関数を構築することはほぼ不可能であるため、抽象状態を作る状態の集約である。
サブゴアル級数を用いた軌道アグリゲーションを提案する。
この方法は、試行錯誤中のエピソード中の状態を、サブゴアル系列とサブゴアル同定関数のみで動的に集約する。
デザイナーの努力を最小限にし、高次元の観察が可能な環境に適用する。
実験のために参加者から下記シリーズを得た。
実験は,3つの領域,4部屋(離散状態と離散動作),ピンボール(連続動作と離散動作),ピッキング(連続動作)で行った。
本手法をベースライン強化学習アルゴリズムおよびランダムサブゴールおよびナイーブサブゴールに基づく報酬形成を含む他のサブゴールベース手法と比較した。
その結果、報酬形成は学習効率において他の方法よりも優れていた。
関連論文リスト
- STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T15:55:38Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。