論文の概要: STARC: A General Framework For Quantifying Differences Between Reward
Functions
- arxiv url: http://arxiv.org/abs/2309.15257v2
- Date: Mon, 11 Mar 2024 16:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:07:38.513045
- Title: STARC: A General Framework For Quantifying Differences Between Reward
Functions
- Title(参考訳): STARC: 逆関数の違いを定量化するための一般的なフレームワーク
- Authors: Joar Skalse, Lucy Farnik, Sumeet Ramesh Motwani, Erik Jenner, Adam
Gleave, Alessandro Abate
- Abstract要約: 我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
- 参考スコア(独自算出の注目度): 55.33869271912095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to solve a task using reinforcement learning, it is necessary to
first formalise the goal of that task as a reward function. However, for many
real-world tasks, it is very difficult to manually specify a reward function
that never incentivises undesirable behaviour. As a result, it is increasingly
popular to use \emph{reward learning algorithms}, which attempt to \emph{learn}
a reward function from data. However, the theoretical foundations of reward
learning are not yet well-developed. In particular, it is typically not known
when a given reward learning algorithm with high probability will learn a
reward function that is safe to optimise. This means that reward learning
algorithms generally must be evaluated empirically, which is expensive, and
that their failure modes are difficult to anticipate in advance. One of the
roadblocks to deriving better theoretical guarantees is the lack of good
methods for quantifying the difference between reward functions. In this paper
we provide a solution to this problem, in the form of a class of pseudometrics
on the space of all reward functions that we call STARC (STAndardised Reward
Comparison) metrics. We show that STARC metrics induce both an upper and a
lower bound on worst-case regret, which implies that our metrics are tight, and
that any metric with the same properties must be bilipschitz equivalent to
ours. Moreover, we also identify a number of issues with reward metrics
proposed by earlier works. Finally, we evaluate our metrics empirically, to
demonstrate their practical efficacy. STARC metrics can be used to make both
theoretical and empirical analysis of reward learning algorithms both easier
and more principled.
- Abstract(参考訳): 強化学習を用いて課題を解決するためには,まずその課題の目標を報奨関数として定式化する必要がある。
しかし、多くの実世界のタスクでは、望ましくない振る舞いをインセンティブにしない報酬関数を手動で指定することは極めて困難である。
結果として、データから報奨関数を \emph{reward learning algorithms} としようとする \emph{learn} が使われるようになった。
しかし、報酬学習の理論的基礎はまだ十分に発達していない。
特に、高い確率で与えられた報酬学習アルゴリズムが、最適化するのに安全な報酬関数をいつ学習するかは知られていない。
これは、報酬学習アルゴリズムは一般的に経験的に評価されなければならず、これは高価であり、その失敗モードは事前に予測することが困難であることを意味する。
より理論的な保証を導き出すための障害の1つは、報酬関数間の差を定量化する良い方法がないことである。
本稿では,我々がstarc(standardized reward comparison)メトリックと呼ぶすべての報酬関数の空間上の擬メトリックのクラスという形で,この問題に対する解決策を提案する。
以上の結果から,STARCの指標は最悪の場合の後悔に対して上界と下界の両方を誘導し,我々の指標は厳密であり,同じ性質を持つ指標は我々のものと同等でなければならないことを示唆する。
さらに,先行研究によって提案された報奨指標を用いて,課題を多数特定した。
最後に,実効性を示すために,指標を実証的に評価する。
STARCメトリクスは、報酬学習アルゴリズムの理論的および実証的な解析を簡単かつより原理的に行うために使用できる。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning [26.067411894141863]
報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T12:36:09Z) - Preprocessing Reward Functions for Interpretability [2.538209532048867]
報酬関数の本質的な構造を、まずそれらを単純だが等価な報酬関数に前処理することで利用することを提案する。
私たちの経験的評価では、前処理された報酬は、元の報酬よりも理解しやすいことがしばしば示されています。
論文 参考訳(メタデータ) (2022-03-25T10:19:35Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。