論文の概要: Towards the Transferability of Rewards Recovered via Regularized Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.01793v1
- Date: Mon, 3 Jun 2024 21:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:52:25.142619
- Title: Towards the Transferability of Rewards Recovered via Regularized Inverse Reinforcement Learning
- Title(参考訳): 正規化逆強化学習によるリワードの伝達可能性向上に向けて
- Authors: Andreas Schlaginhaufen, Maryam Kamgarpour,
- Abstract要約: 逆強化学習は、政策よりも報酬がタスクの最も簡潔で伝達可能な記述であるという考えに動機づけられた、専門家によるデモンストレーションから報酬を推測することを目的としている。
過去の研究は、専門家の方針に完全にアクセスできるという前提の下でのみこの問題に対処してきた。
専門家の方針に完全にアクセスして開発された条件は、専門家のデモンストレーションにのみアクセス可能なより実践的なシナリオにおいて、転送可能性を保証することはできない。
- 参考スコア(独自算出の注目度): 7.957252994178421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to infer a reward from expert demonstrations, motivated by the idea that the reward, rather than the policy, is the most succinct and transferable description of a task [Ng et al., 2000]. However, the reward corresponding to an optimal policy is not unique, making it unclear if an IRL-learned reward is transferable to new transition laws in the sense that its optimal policy aligns with the optimal policy corresponding to the expert's true reward. Past work has addressed this problem only under the assumption of full access to the expert's policy, guaranteeing transferability when learning from two experts with the same reward but different transition laws that satisfy a specific rank condition [Rolland et al., 2022]. In this work, we show that the conditions developed under full access to the expert's policy cannot guarantee transferability in the more practical scenario where we have access only to demonstrations of the expert. Instead of a binary rank condition, we propose principal angles as a more refined measure of similarity and dissimilarity between transition laws. Based on this, we then establish two key results: 1) a sufficient condition for transferability to any transition laws when learning from at least two experts with sufficiently different transition laws, and 2) a sufficient condition for transferability to local changes in the transition law when learning from a single expert. Furthermore, we also provide a probably approximately correct (PAC) algorithm and an end-to-end analysis for learning transferable rewards from demonstrations of multiple experts.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬を推し進めることを目的としており、その報酬は政策ではなく、最も簡潔で伝達可能なタスクの記述である(Ng et al, 2000)。
しかし、最適政策に対応する報酬はユニークではないため、その最適政策が専門家の真の報酬に対応する最適政策と一致しているという意味で、IRLが引き起こした報酬が新しい移行法に転送可能であるかどうかは不明である。
過去の研究は、専門家の方針に完全にアクセスできるという前提の下でのみこの問題に対処しており、同じ報酬を持つ2人の専門家から学びながら、特定の階級条件を満たす異なる移行法則(ローランド等、2022年)を学ぶ際に、移行可能性を保証する。
本研究は,専門家の方針に完全にアクセスして開発された条件が,専門家のデモンストレーションにのみアクセス可能なより実践的なシナリオにおいて,伝達可能性を保証することができないことを示す。
双対階数条件の代わりに、遷移法則間の類似性と相似性のより洗練された尺度として主角を提案する。
これに基づいて、我々は2つの重要な結果を確立する。
1) 十分に異なる移行法則を有する少なくとも2人の専門家から学ぶ際に、移行法則への移転可能性に関する十分な条件
2 一人の専門家から学ぶとき、移行法における局所的な変更に対する移転可能性の十分な条件。
さらに,複数の専門家のデモンストレーションから伝達可能な報酬を学習するための,ほぼ正しいPACアルゴリズムとエンドツーエンド分析も提供する。
関連論文リスト
- Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery [1.1394969272703013]
逆逆強化学習(AIRL)は、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。
本稿では,AIRLの再検討を行う。
その結果,AIRLは特定の条件に関わらず,高い確率で効果的な転送を行うために報酬をアンタングルすることができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T06:21:32Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Identifiability and generalizability from multiple experts in Inverse
Reinforcement Learning [39.632717308147825]
強化学習(Reinforcement Learning, RL)は、ある環境における報酬関数からエージェントを訓練することを目的としている。
逆強化学習(IRL)は、専門家の行動を観察して報酬関数を回復させようとする。
論文 参考訳(メタデータ) (2022-09-22T12:50:00Z) - Training Transition Policies via Distribution Matching for Complex Tasks [7.310043452300736]
階層的強化学習は、複雑な課題を解決するための単純なタスクに対して、低レベルのポリシーを活用することを目指している。
我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。
従来の手法よりも成功率の高い下級政策を円滑に結び付けることを示す。
論文 参考訳(メタデータ) (2021-10-08T19:57:37Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Generalization Guarantees for Imitation Learning [6.542289202349586]
模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
論文 参考訳(メタデータ) (2020-08-05T03:04:13Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。