Fugu-MT 論文翻訳(概要): Dynamics-Aware Comparison of Learned Reward Functions

論文の概要: Dynamics-Aware Comparison of Learned Reward Functions

arxiv url: http://arxiv.org/abs/2201.10081v1
Date: Tue, 25 Jan 2022 03:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-26 14:32:15.241196
Title: Dynamics-Aware Comparison of Learned Reward Functions
Title（参考訳）: 学習リワード関数のダイナミクス・アウェア比較
Authors: Blake Wulfe and Ashwin Balakrishna and Logan Ellis and Jean Mercat and Rowan McAllister and Adrien Gaidon
Abstract要約: 報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
参考スコア（独自算出の注目度）: 21.159457412742356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to learn reward functions plays an important role in enabling the deployment of intelligent agents in the real world. However, comparing reward functions, for example as a means of evaluating reward learning methods, presents a challenge. Reward functions are typically compared by considering the behavior of optimized policies, but this approach conflates deficiencies in the reward function with those of the policy search algorithm used to optimize it. To address this challenge, Gleave et al. (2020) propose the Equivalent-Policy Invariant Comparison (EPIC) distance. EPIC avoids policy optimization, but in doing so requires computing reward values at transitions that may be impossible under the system dynamics. This is problematic for learned reward functions because it entails evaluating them outside of their training distribution, resulting in inaccurate reward values that we show can render EPIC ineffective at comparing rewards. To address this problem, we propose the Dynamics-Aware Reward Distance (DARD), a new reward pseudometric. DARD uses an approximate transition model of the environment to transform reward functions into a form that allows for comparisons that are invariant to reward shaping while only evaluating reward functions on transitions close to their training distribution. Experiments in simulated physical domains demonstrate that DARD enables reliable reward comparisons without policy optimization and is significantly more predictive than baseline methods of downstream policy performance when dealing with learned reward functions.
Abstract（参考訳）: 報酬関数を学習する能力は、現実世界におけるインテリジェントエージェントの展開を可能にする上で重要な役割を果たす。しかし、例えば報酬学習方法を評価する手段としての報酬関数の比較は困難である。リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと比較する。この問題に対処するため、Gleaveら (2020) は等価・ポリシィ不変比較(EPIC)距離を提案している。 EPICはポリシーの最適化を避けているが、それを行うにはシステム力学では不可能な遷移における報酬値の計算が必要である。これは、学習報酬関数が学習報酬分布の外部で評価する必要があり、その結果、EPICが報酬を比較するのに効果がないことを示す不正確な報酬値が得られるためである。この問題に対処するため,我々は,新しい報酬擬メトリックであるdynamics-aware reward distance (dard)を提案する。 DARDは、環境の近似的な遷移モデルを使用して報酬関数を、報酬形成に不変な比較を可能とし、トレーニング分布に近い遷移に対してのみ報酬関数を評価する形式に変換する。シミュレーション物理ドメインにおける実験により、dardはポリシー最適化なしで信頼できる報酬比較が可能であり、学習された報酬関数を扱う際の下流政策性能のベースライン法よりもかなり予測可能であることが示されている。

関連論文リスト

TROFI: Trajectory-Ranked Offline Inverse Reinforcement Learning [48.31236495564408]
本稿では,TROFI(Trjectory-Ranked Offline Inverse reinforcement Learning)を提案する。 TROFIは、事前に定義された報酬関数なしでオフラインでポリシーを効果的に学習するための新しいアプローチである。 TROFIは基準線を一貫して上回り、基本真理報酬を用いてポリシーを学ぶのに相容れない性能を示す。
論文参考訳（メタデータ） (2025-06-27T08:22:41Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
STARC: A General Framework For Quantifying Differences Between Reward Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文参考訳（メタデータ） (2023-09-26T20:31:19Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Invariance in Policy Optimisation and Partial Identifiability in Reward Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文参考訳（メタデータ） (2022-03-14T20:19:15Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文参考訳（メタデータ） (2021-03-08T03:28:04Z)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T10:17:45Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文参考訳（メタデータ） (2020-10-06T00:10:16Z)
Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。 EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文参考訳（メタデータ） (2020-06-24T17:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。