論文の概要: Preprocessing Reward Functions for Interpretability
- arxiv url: http://arxiv.org/abs/2203.13553v1
- Date: Fri, 25 Mar 2022 10:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:51:42.625975
- Title: Preprocessing Reward Functions for Interpretability
- Title(参考訳): 解釈性のための前処理報酬関数
- Authors: Erik Jenner, Adam Gleave
- Abstract要約: 報酬関数の本質的な構造を、まずそれらを単純だが等価な報酬関数に前処理することで利用することを提案する。
私たちの経験的評価では、前処理された報酬は、元の報酬よりも理解しやすいことがしばしば示されています。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world applications, the reward function is too complex to be
manually specified. In such cases, reward functions must instead be learned
from human feedback. Since the learned reward may fail to represent user
preferences, it is important to be able to validate the learned reward function
prior to deployment. One promising approach is to apply interpretability tools
to the reward function to spot potential deviations from the user's intention.
Existing work has applied general-purpose interpretability tools to understand
learned reward functions. We propose exploiting the intrinsic structure of
reward functions by first preprocessing them into simpler but equivalent reward
functions, which are then visualized. We introduce a general framework for such
reward preprocessing and propose concrete preprocessing algorithms. Our
empirical evaluation shows that preprocessed rewards are often significantly
easier to understand than the original reward.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、報酬関数は手動で指定するには複雑すぎる。
このような場合、報酬関数は人間のフィードバックから学ぶ必要がある。
学習した報酬はユーザの好みを表現できない可能性があるため、学習した報酬関数をデプロイ前に検証できることが重要です。
有望なアプローチの1つは、ユーザーの意図から潜在的な逸脱を見つけるために報酬機能に解釈可能性ツールを適用することである。
既存の研究では、学習した報酬関数を理解するために汎用解釈ツールを適用している。
報酬関数の本質的な構造を利用して、まずそれらをより単純だが等価な報酬関数に前処理し、それを視覚化する。
このような報酬前処理のための汎用フレームワークを導入し,具体的な前処理アルゴリズムを提案する。
経験的な評価から,前処理された報酬は,元の報酬よりもはるかに理解しやすいことが分かりました。
関連論文リスト
- STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。