論文の概要: Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning
- arxiv url: http://arxiv.org/abs/2203.07475v1
- Date: Mon, 14 Mar 2022 20:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:16:35.147448
- Title: Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning
- Title(参考訳): 逆学習における政策最適化の不変性と部分的不確定性
- Authors: Joar Skalse, Matthew Farrugia-Roberts, Stuart Russell, Alessandro
Abate, Adam Gleave
- Abstract要約: 複数の報酬関数がデータに等しく適合していることが、無限のデータ極限においても示される。
政策最適化などの下流業務におけるこの部分的識別可能性の影響を分析した。
- 参考スコア(独自算出の注目度): 67.4640841144101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It's challenging to design reward functions for complex, real-world tasks.
Reward learning lets one instead infer reward functions from data. However,
multiple reward functions often fit the data equally well, even in the
infinite-data limit. Prior work often considers reward functions to be uniquely
recoverable, by imposing additional assumptions on data sources. By contrast,
we formally characterise the partial identifiability of popular data sources,
including demonstrations and trajectory preferences, under multiple common sets
of assumptions. We analyse the impact of this partial identifiability on
downstream tasks such as policy optimisation, including under changes in
environment dynamics. We unify our results in a framework for comparing data
sources and downstream tasks by their invariances, with implications for the
design and selection of data sources for reward learning.
- Abstract(参考訳): 複雑な現実世界のタスクに報酬関数を設計することは困難です。
逆学習は代わりにデータから報酬関数を推論する。
しかし、複数の報酬関数は、無限のデータ極限においても、しばしばデータに等しく適合する。
以前の作業では、データソースに追加の仮定を課すことで、報酬関数が一意に回復可能であると考えることが多い。
対照的に,実演や軌道選好を含む一般的なデータソースの部分的識別性を,複数の一般的な仮定の下で形式的に特徴付ける。
この部分的識別性が,環境力学の変化を含む,政策最適化などの下流タスクに与える影響を分析した。
我々は、データソースと下流タスクを不変性によって比較するフレームワークで結果を統一し、報奨学習のためのデータソースの設計と選択に影響を及ぼす。
関連論文リスト
- Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。
本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文 参考訳(メタデータ) (2024-11-24T18:35:46Z) - Automated Feature Selection for Inverse Reinforcement Learning [7.278033100480175]
逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T10:05:21Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Reward function shape exploration in adversarial imitation learning: an
empirical study [9.817069267241575]
敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。
代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
論文 参考訳(メタデータ) (2021-04-14T08:21:49Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Removing Bias in Multi-modal Classifiers: Regularization by Maximizing
Functional Entropies [88.0813215220342]
いくつかのモダリティは、他のものよりも分類結果に容易に寄与することができる。
機能的エントロピーと機能的フィッシャー情報とを結合した対数ソボレフの不等式に基づく手法を開発した。
VQA-CPv2 と SocialIQ の2つの挑戦的マルチモーダルデータセットに対して,より均一にモダリティを活用しながら,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-10-21T07:40:33Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。