論文の概要: Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification
- arxiv url: http://arxiv.org/abs/2103.12656v1
- Date: Tue, 23 Mar 2021 16:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 18:00:44.534050
- Title: Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification
- Title(参考訳): Replacing Rewards with Examples: Example-based Policy Search via Recursive Classification
- Authors: Benjamin Eysenbach, Sergey Levine, and Ruslan Salakhutdinov
- Abstract要約: 標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
- 参考スコア(独自算出の注目度): 133.20816939521941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the standard Markov decision process formalism, users specify tasks by
writing down a reward function. However, in many scenarios, the user is unable
to describe the task in words or numbers, but can readily provide examples of
what the world would look like if the task were solved. Motivated by this
observation, we derive a control algorithm from first principles that aims to
visit states that have a high probability of leading to successful outcomes,
given only examples of successful outcome states. Prior work has approached
similar problem settings in a two-stage process, first learning an auxiliary
reward function and then optimizing this reward function using another
reinforcement learning algorithm. In contrast, we derive a method based on
recursive classification that eschews auxiliary reward functions and instead
directly learns a value function from transitions and successful outcomes. Our
method therefore requires fewer hyperparameters to tune and lines of code to
debug. We show that our method satisfies a new data-driven Bellman equation,
where examples take the place of the typical reward function term. Experiments
show that our approach outperforms prior methods that learn explicit reward
functions.
- Abstract(参考訳): 標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
しかし、多くのシナリオでは、ユーザーは単語や数字でタスクを記述できないが、タスクが解決された場合、世界がどのように見えるかを簡単に示すことができる。
この観察によって動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的とした第一原理から導かれる。
2段階のプロセスで同様の問題設定にアプローチし、まず補助報酬関数を学習し、次に別の強化学習アルゴリズムを用いて報酬関数を最適化する。
対照的に,補助報酬関数を回避し,その代わりに遷移や成功から価値関数を直接学習する再帰的分類に基づく手法を導出する。
したがって、チューニングするハイパーパラメータとデバッグするコードの行数が少なくなる。
本手法は,従来の報酬関数の代用として,新しいデータ駆動ベルマン方程式を満たしていることを示す。
実験の結果,提案手法は明示的な報酬関数を学習する先行手法よりも優れていた。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Preprocessing Reward Functions for Interpretability [2.538209532048867]
報酬関数の本質的な構造を、まずそれらを単純だが等価な報酬関数に前処理することで利用することを提案する。
私たちの経験的評価では、前処理された報酬は、元の報酬よりも理解しやすいことがしばしば示されています。
論文 参考訳(メタデータ) (2022-03-25T10:19:35Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Potential-based Reward Shaping in Sokoban [5.563631490799427]
本研究では,ソコバンにおける報酬形成の潜在関数を探索アルゴリズム(A*)で自動生成できるかどうかを検討する。
その結果,字型報酬関数による学習は,スクラッチから学習するよりも速いことがわかった。
その結果,距離関数はソコバンに適した関数である可能性が示唆された。
論文 参考訳(メタデータ) (2021-09-10T06:28:09Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Reward Shaping with Dynamic Trajectory Aggregation [7.6146285961466]
ポテンシャルに基づく報酬形成は報酬を豊かにする基本的な方法である。
SARSA-RSは潜在的な機能を学び、それを取得する。
サブゴール系列を用いた軌道アグリゲーションを提案する。
論文 参考訳(メタデータ) (2021-04-13T13:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。