論文の概要: A Bayesian Solution To The Imitation Gap
- arxiv url: http://arxiv.org/abs/2407.00495v1
- Date: Sat, 29 Jun 2024 17:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:56:15.225155
- Title: A Bayesian Solution To The Imitation Gap
- Title(参考訳): シミュレーションギャップに対するベイズ的解決策
- Authors: Risto Vuorio, Mattie Fellows, Cong Lu, Clémence Grislain, Shimon Whiteson,
- Abstract要約: エージェントは報酬信号が特定できない環境で行動することを学ぶ必要がある。
場合によっては、専門家とエージェントの観察可能性の違いは、模倣のギャップを生じさせる可能性がある。
- 参考スコア(独自算出の注目度): 34.16107600758348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world settings, an agent must learn to act in environments where no reward signal can be specified, but a set of expert demonstrations is available. Imitation learning (IL) is a popular framework for learning policies from such demonstrations. However, in some cases, differences in observability between the expert and the agent can give rise to an imitation gap such that the expert's policy is not optimal for the agent and a naive application of IL can fail catastrophically. In particular, if the expert observes the Markov state and the agent does not, then the expert will not demonstrate the information-gathering behavior needed by the agent but not the expert. In this paper, we propose a Bayesian solution to the Imitation Gap (BIG), first using the expert demonstrations, together with a prior specifying the cost of exploratory behavior that is not demonstrated, to infer a posterior over rewards with Bayesian inverse reinforcement learning (IRL). BIG then uses the reward posterior to learn a Bayes-optimal policy. Our experiments show that BIG, unlike IL, allows the agent to explore at test time when presented with an imitation gap, whilst still learning to behave optimally using expert demonstrations when no such gap exists.
- Abstract(参考訳): 多くの実世界の環境では、エージェントは報酬信号が特定できない環境で行動することを学ぶ必要があるが、専門家によるデモンストレーションのセットが利用可能である。
イミテーション・ラーニング(IL)は、このようなデモンストレーションからポリシーを学ぶための一般的なフレームワークである。
しかし、一部のケースでは、専門家とエージェントの観察可能性の違いは、専門家のポリシーがエージェントに最適ではなく、ILの素早い適用が破滅的に失敗するような模倣ギャップを生じさせる可能性がある。
特に、専門家がマルコフ状態を観察し、エージェントがそうでない場合、専門家は、エージェントが必要とする情報収集の振る舞いを証明しないが、専門家ではない。
本稿では、まず、専門家による実証実験を用いて、実証されていない探索行動のコストを事前に指定し、ベイジアン逆強化学習(IRL)による報酬よりも後進的な報酬を推測する、ベイジアン・ギャップ(BIG)に対するベイジアン・ソリューションを提案する。
BIGはその後、報酬をベイズ最適化ポリシーを学ぶために使用する。
我々の実験では、BIGはILとは異なり、エージェントが模擬ギャップを提示した時にテスト時に探索できる一方で、そのようなギャップが存在しない場合、専門家によるデモンストレーションを用いて最適な振る舞いを学習できることが示されている。
関連論文リスト
- Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Safe Driving via Expert Guided Policy Optimization [38.68691065718655]
エキスパート・イン・ザ・ループ強化学習は、学習エージェントの探索を保護するために使用される。
我々は,強化学習のループに保護者を統合する新しい専門家誘導政策最適化(EGPO)手法を開発した。
本手法は, 試験時間の安全性と優れたトレーニングを達成し, サンプル効率のかなりのマージンでベースラインを上回り, テスト時間において, 目に見えない環境に対する一般性を維持している。
論文 参考訳(メタデータ) (2021-10-13T16:19:03Z) - Blind Exploration and Exploitation of Stochastic Experts [7.106986689736826]
我々は,後方サンプリング,高信頼境界,経験的Kulback-Leibler分散,およびマルチアームバンディット問題に対するminmax法を用いて,最も信頼性の高い専門家を特定するためのブラインド探索・エクスプロイト(BEE)アルゴリズムを提案する。
本稿では,他の専門家の意見のみを瞬時に活用できる,経験的に実現可能な専門家能力尺度を提案する。
論文 参考訳(メタデータ) (2021-04-02T15:02:02Z) - Co-Imitation Learning without Expert Demonstration [39.988945772085465]
我々は,エージェントの過去の優れた経験を専門家のデモンストレーションなしで活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。
経験は有用か誤解を招く可能性があるが、期待される値関数の利得によって各経験の潜在的有用性を評価することを提案する。
各種課題に対する実験結果から,提案したコイミテーション学習フレームワークの有意な優位性を示した。
論文 参考訳(メタデータ) (2021-03-27T06:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。