論文の概要: Online Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2102.06924v1
- Date: Sat, 13 Feb 2021 12:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:06:00.471105
- Title: Online Apprenticeship Learning
- Title(参考訳): オンライン見習い学習
- Authors: Lior Shani, Tom Zahavy and Shie Mannor
- Abstract要約: 見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
- 参考スコア(独自算出の注目度): 58.45089581278177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Apprenticeship Learning (AL), we are given a Markov Decision Process (MDP)
without access to the cost function. Instead, we observe trajectories sampled
by an expert that acts according to some policy. The goal is to find a policy
that matches the expert's performance on some predefined set of cost functions.
We introduce an online variant of AL (Online Apprenticeship Learning; OAL),
where the agent is expected to perform comparably to the expert while
interacting with the environment. We show that the OAL problem can be
effectively solved by combining two mirror descent based no-regret algorithms:
one for policy optimization and another for learning the worst case cost. To
this end, we derive a convergent algorithm with $O(\sqrt{K})$ regret, where $K$
is the number of interactions with the MDP, and an additional linear error term
that depends on the amount of expert trajectories available. Importantly, our
algorithm avoids the need to solve an MDP at each iteration, making it more
practical compared to prior AL methods. Finally, we implement a deep variant of
our algorithm which shares some similarities to GAIL \cite{ho2016generative},
but where the discriminator is replaced with the costs learned by the OAL
problem. Our simulations demonstrate our theoretically grounded approach
outperforms the baselines.
- Abstract(参考訳): 見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
代わりに、あるポリシーに従って行動する専門家がサンプリングした軌道を観察します。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
エージェントが環境と対話しながら専門家と相性良く行動することが期待されるal(online apprenticeship learning; oal)のオンライン版について紹介する。
提案手法は,2つのミラー降下に基づく非回帰アルゴリズムを組み合わせることで,OAL問題を効果的に解くことができることを示す。
この目的のために、$O(\sqrt{K})$ regret を持つ収束アルゴリズムを導出し、$K$ は MDP との相互作用の数であり、利用可能な専門家軌道の量に依存する追加の線形誤差項である。
重要な点として,本アルゴリズムは各イテレーションでMPPを解く必要がなくなり,従来のAL手法よりも実用的になる。
最後に, GAIL \cite{ho2016generative} と類似性を持つアルゴリズムの深い変種を実装するが, 判別器をOAL問題で学習したコストに置き換える。
我々のシミュレーションは、我々の理論上のアプローチがベースラインより優れていることを示す。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Provably Efficient Lifelong Reinforcement Learning with Linear Function
Approximation [41.460894569204065]
線形文脈マルコフ決定過程(MDP)の遺残条件における生涯強化学習(RL)について検討する。
本稿では, UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T06:53:28Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Stochastic Gradient Descent with Dependent Data for Offline
Reinforcement Learning [4.421561004829125]
オフライン学習は探索と探索を扱うのに役立ち、多くのアプリケーションでデータの再利用を可能にする。
本研究では,政策評価と政策学習という2つのオフライン学習課題について検討する。
論文 参考訳(メタデータ) (2022-02-06T20:54:36Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。