論文の概要: Robust Asymmetric Learning in POMDPs
- arxiv url: http://arxiv.org/abs/2012.15566v2
- Date: Fri, 19 Mar 2021 10:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:23:08.725069
- Title: Robust Asymmetric Learning in POMDPs
- Title(参考訳): POMDPにおけるロバスト非対称学習
- Authors: Andrew Warrington and J. Wilder Lavington and Adam Scibior and Mark
Schmidt and Frank Wood
- Abstract要約: 模造学習の既存のアプローチには重大な欠陥があります:専門家は研修生が見ることができないものを知りません。
模倣エージェントポリシーの期待される報酬を最大化するために専門家を訓練し、効率的なアルゴリズム、適応非対称ダガー(A2D)を構築するためにそれを使用する目的を導き出します。
a2dは、エージェントが安全に模倣できる専門家ポリシーを生成し、その結果、固定された専門家を模倣して学習したポリシーを上回ることを示します。
- 参考スコア(独自算出の注目度): 24.45409442047289
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Policies for partially observed Markov decision processes can be efficiently
learned by imitating policies for the corresponding fully observed Markov
decision processes. Unfortunately, existing approaches for this kind of
imitation learning have a serious flaw: the expert does not know what the
trainee cannot see, and so may encourage actions that are sub-optimal, even
unsafe, under partial information. We derive an objective to instead train the
expert to maximize the expected reward of the imitating agent policy, and use
it to construct an efficient algorithm, adaptive asymmetric DAgger (A2D), that
jointly trains the expert and the agent. We show that A2D produces an expert
policy that the agent can safely imitate, in turn outperforming policies
learned by imitating a fixed expert.
- Abstract(参考訳): 部分的に観察されたマルコフ決定プロセスのポリシーは、対応する完全に観察されたマルコフ決定プロセスのポリシーを模倣することで効率的に学習することができる。
残念ながら、このような模倣学習の既存のアプローチには深刻な欠陥がある。専門家は訓練生に何が見えないのかを知らないため、部分的な情報の下では準最適で、安全ではないアクションを奨励する可能性がある。
提案手法は,エージェントとエージェントを協調的に訓練する適応型非対称なDAgger (A2D) を効率的に構築するために,模倣エージェントポリシーの期待する報酬を最大化するために専門家を訓練する目的を導出する。
a2dは、エージェントが安全に模倣できる専門家ポリシーを生成し、その結果、固定された専門家を模倣して学習したポリシーを上回ることを示します。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement
Learning with Clairvoyant Experts [22.87432549580184]
我々はこれを潜在マルコフ決定過程(MDP)上のベイズ強化学習として定式化する。
我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。
次に、アンサンブルの勧告を改善するためにベイズ残留政策を訓練し、不確実性を減らすことを学ぶ。
BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-07T23:10:05Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。