論文の概要: Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation
- arxiv url: http://arxiv.org/abs/2306.13554v1
- Date: Fri, 23 Jun 2023 15:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 12:30:39.633947
- Title: Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation
- Title(参考訳): マイトショット政策模倣における微調整とメタラーニングの有効性の比較
- Authors: Massimiliano Patacchiola, Mingfei Sun, Katja Hofmann, Richard E.
Turner
- Abstract要約: 数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
- 参考スコア(独自算出の注目度): 45.312333134810665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we explore few-shot imitation learning for control problems,
which involves learning to imitate a target policy by accessing a limited set
of offline rollouts. This setting has been relatively under-explored despite
its relevance to robotics and control applications. State-of-the-art methods
developed to tackle few-shot imitation rely on meta-learning, which is
expensive to train as it requires access to a distribution over tasks (rollouts
from many target policies and variations of the base environment). Given this
limitation we investigate an alternative approach, fine-tuning, a family of
methods that pretrain on a single dataset and then fine-tune on unseen
domain-specific data. Recent work has shown that fine-tuners outperform
meta-learners in few-shot image classification tasks, especially when the data
is out-of-domain. Here we evaluate to what extent this is true for control
problems, proposing a simple yet effective baseline which relies on two stages:
(i) training a base policy online via reinforcement learning (e.g. Soft
Actor-Critic) on a single base environment, (ii) fine-tuning the base policy
via behavioral cloning on a few offline rollouts of the target policy. Despite
its simplicity this baseline is competitive with meta-learning methods on a
variety of conditions and is able to imitate target policies trained on unseen
variations of the original environment. Importantly, the proposed approach is
practical and easy to implement, as it does not need any complex meta-training
protocol. As a further contribution, we release an open source dataset called
iMuJoCo (iMitation MuJoCo) consisting of 154 variants of popular OpenAI-Gym
MuJoCo environments with associated pretrained target policies and rollouts,
which can be used by the community to study few-shot imitation learning and
offline reinforcement learning.
- Abstract(参考訳): 本稿では,オフラインロールアウトの制限セットにアクセスして,ターゲットポリシーを模倣する学習を含む,制御問題に対するマイテーション学習について検討する。
この設定は、ロボット工学や制御アプリケーションとの関連性にもかかわらず、比較的過小評価されている。
数少ない模倣に取り組むために開発された最先端の手法は、メタラーニングに依存しており、タスク(多くのターゲットポリシーとベース環境のバリエーションからのロールアウト)を介してディストリビューションにアクセスする必要があるため、トレーニングは高価である。
この制限を考えると、私たちは、単一のデータセットで事前トレーニングし、未認識のドメイン固有データで微調整するメソッド群である、微調整という別のアプローチを調査します。
近年の研究では、特にデータがドメイン外である場合において、微調整器は、わずかな画像分類タスクでメタリーナーを上回ることが示されている。
ここでは,このことが制御問題にどの程度当てはまるかを評価し,二つの段階に依存する単純かつ効果的なベースラインを提案する。
(i)強化学習(ソフトアクタ-クリティックなど)によるオンラインベースポリシーのトレーニングを単一ベース環境で行うこと。
(ii)ターゲットポリシーのいくつかのオフラインロールアウトにおける行動クローンによるベースポリシーの微調整。
単純さにもかかわらず、このベースラインは様々な条件でメタ学習手法と競合し、元の環境の目に見えないバリエーションに基づいて訓練されたターゲットポリシーを模倣することができる。
提案手法は,複雑なメタトレーニングプロトコルを必要としないため,実用的で実装が容易である。
さらに,openai-gym mujoco環境の154の変種と,事前学習されたターゲットポリシとロールアウトを組み合わせた,イムジョコ(imitation mujoco)と呼ばれるオープンソースデータセットをリリースする。
関連論文リスト
- Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。