論文の概要: Leveraging Jumpy Models for Planning and Fast Learning in Robotic
Domains
- arxiv url: http://arxiv.org/abs/2302.12617v1
- Date: Fri, 24 Feb 2023 13:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 13:38:32.672416
- Title: Leveraging Jumpy Models for Planning and Fast Learning in Robotic
Domains
- Title(参考訳): ロボット領域における計画と高速学習のための跳躍モデルの活用
- Authors: Jingwei Zhang, Jost Tobias Springenberg, Arunkumar Byravan, Leonard
Hasenclever, Abbas Abdolmaleki, Dushyant Rao, Nicolas Heess, Martin
Riedmiller
- Abstract要約: 本研究では,ラベルのない経験からマルチステップダイナミクス予測モデル(ジャンピーモデル)を学習する問題について検討する。
我々は,以前に収集した経験から,スキル埋め込みスペースのオフライン化とともに,跳躍モデルを学習することを提案する。
我々は、RGBスタック環境で一連の実験を行い、学習したスキルと関連するモデルによる計画が、新しいタスクにゼロショットの一般化を可能にすることを示す。
- 参考スコア(独自算出の注目度): 25.245208731491346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we study the problem of learning multi-step dynamics prediction
models (jumpy models) from unlabeled experience and their utility for fast
inference of (high-level) plans in downstream tasks. In particular we propose
to learn a jumpy model alongside a skill embedding space offline, from
previously collected experience for which no labels or reward annotations are
required. We then investigate several options of harnessing those learned
components in combination with model-based planning or model-free reinforcement
learning (RL) to speed up learning on downstream tasks. We conduct a set of
experiments in the RGB-stacking environment, showing that planning with the
learned skills and the associated model can enable zero-shot generalization to
new tasks, and can further speed up training of policies via reinforcement
learning. These experiments demonstrate that jumpy models which incorporate
temporal abstraction can facilitate planning in long-horizon tasks in which
standard dynamics models fail.
- Abstract(参考訳): 本稿では,ラベルなし経験から多段階ダイナミクス予測モデル(jumpy model)を学習する問題と,下流タスクにおける(ハイレベルな)計画の高速推論に有用性について検討する。
特に,ラベルや報酬アノテーションが不要な事前収集された経験から,スキル埋め込みスペースのオフライン化とともに,跳躍モデルを学習することを提案する。
次に,学習したコンポーネントをモデルベースプランニングやモデルフリー強化学習(rl)と組み合わせて,下流タスクの学習を高速化するいくつかの選択肢を検討する。
rgbスタック環境で一連の実験を行い、学習スキルと関連するモデルによる計画により、新しいタスクへのゼロショット一般化が可能になり、強化学習によるポリシーのトレーニングをさらにスピードアップできることを示した。
これらの実験は、時間的抽象化を組み込んだジャンパーモデルが、標準ダイナミクスモデルが失敗する長時間ホリゾンタスクの計画を容易にすることを証明している。
関連論文リスト
- Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究はLlama Lora-Integrated Autorregresive ModelであるLLIAMを提案する。
低ランク適応は、微調整フェーズとして知られる様々な時系列データセットでモデルの知識を高めるために使用される。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Skill-based Model-based Reinforcement Learning [18.758245582997656]
モデルベース強化学習(RL)は、複雑な振る舞いを学習するサンプル効率のよい方法である。
本稿では,スキル領域における計画を可能にするSkill-based Model-based RL framework(SkiMo)を提案する。
学習したスキルダイナミクスモデルを利用して、スキル空間の長い地平線を正確にシミュレートし、計画する。
論文 参考訳(メタデータ) (2022-07-15T16:06:33Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文 参考訳(メタデータ) (2021-09-29T09:50:25Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。