論文の概要: OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
- arxiv url: http://arxiv.org/abs/2405.17477v1
- Date: Fri, 24 May 2024 04:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:10:18.947544
- Title: OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
- Title(参考訳): OLLIE: オフライントレーニングからオンラインファインタニングまで
- Authors: Sheng Yue, Xingyuan Hua, Ju Ren, Sen Lin, Junshan Zhang, Yaoxue Zhang,
- Abstract要約: 本研究では,静的な実演データから模倣ポリシーを事前学習し,高速な微調整を行うオフライン・オンライン・イミテーション学習(IL)について検討する。
我々は, ほぼ専門的なポリシーを同時に学習する, $textttOLLIE$ という原則付きオフライン IL 手法を提案する。
経験的に、$textttOLLIE$は、$textbf20$チャレンジタスクのベースラインメソッドを一貫して大幅に上回ります。
- 参考スコア(独自算出の注目度): 40.070791824270266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study offline-to-online Imitation Learning (IL) that pretrains an imitation policy from static demonstration data, followed by fast finetuning with minimal environmental interaction. We find the na\"ive combination of existing offline IL and online IL methods tends to behave poorly in this context, because the initial discriminator (often used in online IL) operates randomly and discordantly against the policy initialization, leading to misguided policy optimization and $\textit{unlearning}$ of pretraining knowledge. To overcome this challenge, we propose a principled offline-to-online IL method, named $\texttt{OLLIE}$, that simultaneously learns a near-expert policy initialization along with an $\textit{aligned discriminator initialization}$, which can be seamlessly integrated into online IL, achieving smooth and fast finetuning. Empirically, $\texttt{OLLIE}$ consistently and significantly outperforms the baseline methods in $\textbf{20}$ challenging tasks, from continuous control to vision-based domains, in terms of performance, demonstration efficiency, and convergence speed. This work may serve as a foundation for further exploration of pretraining and finetuning in the context of IL.
- Abstract(参考訳): 本稿では、静的な実演データから模倣ポリシーを事前学習するオフライン・オンライン・イミテーション・ラーニング(IL)について検討し、続いて環境相互作用を最小限に抑えた高速な微調整を行う。
既存のオフラインILとオンラインILメソッドの組み合わせは、初期識別器(しばしばオンラインILで使用される)がポリシー初期化に対してランダムかつ不一致に動作し、誤ったポリシー最適化と事前学習のための$\textit{unlearning}$が生じるため、この文脈では不適切な振る舞いをする傾向がある。
この課題を解決するために,$\textt{OLLIE}$と$\textit{aligned discriminator initialization}$を同時に学習し,スムーズかつ高速な微調整を実現する。
実証的には、$\texttt{OLLIE}$は、連続的な制御から視覚ベースのドメインまで、パフォーマンス、デモンストレーション効率、収束速度の点で、ベースラインメソッドを$\textbf{20}$チャレンジタスクで一貫して大幅に上回ります。
この研究は、ILの文脈における事前訓練と微調整のさらなる研究の基盤となるかもしれない。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization [24.969834057981046]
従来のアプローチでは、オフラインとオンラインの学習を別々の手順として扱い、冗長な設計と限られたパフォーマンスをもたらす。
オフライン学習とオンライン学習の両方に、政治上の目的を利用するUni-o4を提案する。
本手法は,オフラインとオフラインのファインチューニング学習の両方において,最先端の性能を実現することを実証する。
論文 参考訳(メタデータ) (2023-11-06T18:58:59Z) - On Efficient Online Imitation Learning via Classification [17.416831207557603]
分類に基づくオンライン模倣学習($textbfCOIL$)と、オラクル効率の良い後悔最小化アルゴリズムを設計するための基本的な可能性について検討する。
私たちの研究は、分類に基づくオンライン模倣学習を、重要なILセットアップとして、しっかりとした基礎に置きます。
論文 参考訳(メタデータ) (2022-09-26T17:34:36Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage [27.122391441921664]
本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
論文 参考訳(メタデータ) (2021-06-06T18:31:08Z) - Explaining Fast Improvement in Online Imitation Learning [44.03882968581369]
オンライン模倣学習(英語: Online mimicion Learning, IL)は、専門家のポリシーとのインタラクションを利用して効率的なポリシー最適化を行うフレームワークである。
オンラインILは多くのアプリケーションで実証的な成功を収めた。
オンラインILにおけるポリシークラスの採用には,政策改善のスピードが向上し,性能バイアスが減少する,という2つのメリットがあることを示す。
論文 参考訳(メタデータ) (2020-07-06T04:37:03Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。