論文の概要: Explaining Fast Improvement in Online Imitation Learning
- arxiv url: http://arxiv.org/abs/2007.02520v3
- Date: Mon, 22 Feb 2021 01:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:12:06.551200
- Title: Explaining Fast Improvement in Online Imitation Learning
- Title(参考訳): オンライン模倣学習の高速化について
- Authors: Xinyan Yan, Byron Boots, Ching-An Cheng
- Abstract要約: オンライン模倣学習(英語: Online mimicion Learning, IL)は、専門家のポリシーとのインタラクションを利用して効率的なポリシー最適化を行うフレームワークである。
オンラインILは多くのアプリケーションで実証的な成功を収めた。
オンラインILにおけるポリシークラスの採用には,政策改善のスピードが向上し,性能バイアスが減少する,という2つのメリットがあることを示す。
- 参考スコア(独自算出の注目度): 44.03882968581369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online imitation learning (IL) is an algorithmic framework that leverages
interactions with expert policies for efficient policy optimization. Here
policies are optimized by performing online learning on a sequence of loss
functions that encourage the learner to mimic expert actions, and if the online
learning has no regret, the agent can provably learn an expert-like policy.
Online IL has demonstrated empirical successes in many applications and
interestingly, its policy improvement speed observed in practice is usually
much faster than existing theory suggests. In this work, we provide an
explanation of this phenomenon. Let $\xi$ denote the policy class bias and
assume the online IL loss functions are convex, smooth, and non-negative. We
prove that, after $N$ rounds of online IL with stochastic feedback, the policy
improves in $\tilde{O}(1/N + \sqrt{\xi/N})$ in both expectation and high
probability. In other words, we show that adopting a sufficiently expressive
policy class in online IL has two benefits: both the policy improvement speed
increases and the performance bias decreases.
- Abstract(参考訳): オンライン模倣学習(英語: online imitation learning、il)は、効果的な政策最適化のために専門家ポリシーとのインタラクションを利用するアルゴリズムフレームワークである。
ここで、学習者が専門家の行動を模倣するよう促す一連の損失関数でオンライン学習を行うことで、ポリシーを最適化し、オンライン学習に後悔がなければ、エージェントは専門家のようなポリシーを確実に学習することができる。
オンラインILは、多くのアプリケーションで実証的な成功を示しており、興味深いことに、その政策改善のスピードは通常、既存の理論よりもはるかに速い。
本研究では,この現象を説明する。
$\xi$ はポリシークラスバイアスを表し、オンラインIL損失関数が凸で滑らかで非負であると仮定する。
確率的フィードバックを伴うオンラインILの$N$ラウンドの後、このポリシーは期待値と高い確率の両方で$\tilde{O}(1/N + \sqrt{\xi/N})$で改善される。
言い換えれば、オンラインILに十分に表現力のあるポリシークラスを採用することは、政策改善のスピードが向上し、性能バイアスが減少する、という2つの利点がある。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning [40.070791824270266]
本研究では,静的な実演データから模倣ポリシーを事前学習し,高速な微調整を行うオフライン・オンライン・イミテーション学習(IL)について検討する。
我々は, ほぼ専門的なポリシーを同時に学習する, $textttOLLIE$ という原則付きオフライン IL 手法を提案する。
経験的に、$textttOLLIE$は、$textbf20$チャレンジタスクのベースラインメソッドを一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2024-05-24T04:57:25Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Boosting Offline Reinforcement Learning with Action Preference Query [32.94932149345299]
実践的エージェントの訓練は通常、政策のパフォーマンスと相互作用コストのバランスをとるために、オフラインおよびオンライン強化学習(RL)を含む。
オンラインファインチューニングは、オフライントレーニングフェーズで学習したアウト・オブ・ディストリビューションデータの誤った推定を補正するために一般的に用いられている方法となっている。
本研究では,Offline-with-Action-Preferences (OAP) と呼ばれるインタラクションフリーのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-06T02:29:40Z) - Smooth Imitation Learning via Smooth Costs and Smooth Policies [21.673771194165276]
イミテーション学習(Imitation Learning, IL)は、連続的な制御設定において一般的な手法である。
ILでは、インプットに関してスムーズなエージェントポリシーを得るのが重要な課題である。
本稿では,学習方針の滑らかさを定量化するための新しい指標を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:12:47Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage [27.122391441921664]
本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
論文 参考訳(メタデータ) (2021-06-06T18:31:08Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。