論文の概要: Identifiability and generalizability from multiple experts in Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.10974v1
- Date: Thu, 22 Sep 2022 12:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:00:35.483424
- Title: Identifiability and generalizability from multiple experts in Inverse
Reinforcement Learning
- Title(参考訳): 逆強化学習における複数の専門家の識別可能性と一般化可能性
- Authors: Paul Rolland, Luca Viano, Norman Schuerhoff, Boris Nikolov, Volkan
Cevher
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ある環境における報酬関数からエージェントを訓練することを目的としている。
逆強化学習(IRL)は、専門家の行動を観察して報酬関数を回復させようとする。
- 参考スコア(独自算出の注目度): 39.632717308147825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning (RL) aims to train an agent from a reward
function in a given environment, Inverse Reinforcement Learning (IRL) seeks to
recover the reward function from observing an expert's behavior. It is well
known that, in general, various reward functions can lead to the same optimal
policy, and hence, IRL is ill-defined. However, (Cao et al., 2021) showed that,
if we observe two or more experts with different discount factors or acting in
different environments, the reward function can under certain conditions be
identified up to a constant. This work starts by showing an equivalent
identifiability statement from multiple experts in tabular MDPs based on a rank
condition, which is easily verifiable and is shown to be also necessary. We
then extend our result to various different scenarios, i.e., we characterize
reward identifiability in the case where the reward function can be represented
as a linear combination of given features, making it more interpretable, or
when we have access to approximate transition matrices. Even when the reward is
not identifiable, we provide conditions characterizing when data on multiple
experts in a given environment allows to generalize and train an optimal agent
in a new environment. Our theoretical results on reward identifiability and
generalizability are validated in various numerical experiments.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、与えられた環境における報酬関数からエージェントを訓練することを目的としているが、逆強化学習(IRL)は専門家の行動を観察することから報酬関数を回復しようとする。
一般に、様々な報酬関数が同じ最適ポリシーにつながることが知られており、したがってIRLは不定義である。
しかし (Cao et al., 2021) は、異なる割引要因を持つ2人以上の専門家を観察したり、異なる環境で行動する場合、報酬関数は一定の条件下で一定まで特定できることを示した。
この作業は、ランク条件に基づいて表型MDPの複数の専門家による同等の識別可能性のステートメントを示すことから始まり、容易に検証でき、必要であることが示される。
その結果を様々なシナリオに拡張し、例えば、報酬関数が与えられた特徴の線形結合として表現できる場合や、近似遷移行列へのアクセスがある場合の報酬識別性を特徴付ける。
報酬が特定できない場合でも、与えられた環境における複数の専門家のデータによって、新しい環境における最適なエージェントを一般化し、訓練することができる場合に特徴付ける条件を提供する。
報酬の識別性と一般化性に関する理論的結果は,様々な数値実験で検証された。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Reward function shape exploration in adversarial imitation learning: an
empirical study [9.817069267241575]
敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。
代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
論文 参考訳(メタデータ) (2021-04-14T08:21:49Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。