論文の概要: Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance
- arxiv url: http://arxiv.org/abs/2310.10021v1
- Date: Mon, 16 Oct 2023 02:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:47:13.638296
- Title: Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance
- Title(参考訳): 自身のスキルをブートストラップする - 大規模言語モデルガイダンスによる新しいタスクの解決を学ぶ
- Authors: Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk
Chang, Shao-Hua Sun, Joseph J. Lim
- Abstract要約: BOSSが"スキルブートストラップ"を実行して新しいタスクを達成
LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
- 参考スコア(独自算出の注目度): 66.615355754712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose BOSS, an approach that automatically learns to solve new
long-horizon, complex, and meaningful tasks by growing a learned skill library
with minimal supervision. Prior work in reinforcement learning require expert
supervision, in the form of demonstrations or rich reward functions, to learn
long-horizon tasks. Instead, our approach BOSS (BOotStrapping your own Skills)
learns to accomplish new tasks by performing "skill bootstrapping," where an
agent with a set of primitive skills interacts with the environment to practice
new skills without receiving reward feedback for tasks outside of the initial
skill set. This bootstrapping phase is guided by large language models (LLMs)
that inform the agent of meaningful skills to chain together. Through this
process, BOSS builds a wide range of complex and useful behaviors from a basic
set of primitive skills. We demonstrate through experiments in realistic
household environments that agents trained with our LLM-guided bootstrapping
procedure outperform those trained with naive bootstrapping as well as prior
unsupervised skill acquisition methods on zero-shot execution of unseen,
long-horizon tasks in new environments. Website at clvrai.com/boss.
- Abstract(参考訳): 我々は,学習スキルライブラリを最小限の監督で拡張することにより,新しい長方形,複雑,有意義なタスクを自動的に解く手法であるbossを提案する。
強化学習における以前の仕事は、長期的タスクを学ぶために、デモンストレーションや豊富な報酬関数の形で専門家の監督を必要とする。
代わりに、私たちのアプローチであるBOSS(BOotStrapping your own Skills)は、プリミティブスキルセットを持つエージェントが環境と対話して、初期スキルセット外のタスクに対する報酬フィードバックを受けずに新しいスキルを実践する、"スキルブートストラッピング"を実行することで、新しいタスクを達成することを学びます。
このブートストラッピングフェーズは、エージェントにチェーンする意味のあるスキルを知らせる大きな言語モデル(LLM)によってガイドされる。
このプロセスを通じて、BOSSはプリミティブスキルの基本的なセットから、幅広い複雑さと有用な振る舞いを構築する。
我々は, LLM誘導型ブートストラップ法で訓練されたエージェントが実生活環境において, 従来の非教師なしスキル獲得手法よりも優れており, 新たな環境下での非教師なしロングホライゾンタスクのゼロショット実行を実証する。
website at clvrai.com/boss.com
関連論文リスト
- Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery [29.774700960178624]
我々は,ロボットが新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムであるLOTUSを紹介する。
継続的なスキル発見は、既存のスキルを更新して、以前のタスクを忘れないようにし、新しいタスクを解決するための新しいスキルを追加する。
総合的な実験の結果、LOTUSは最先端のベースラインを11%以上の成功率で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-03T17:38:35Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Transferring Knowledge for Reinforcement Learning in Contact-Rich
Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。
提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。
我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文 参考訳(メタデータ) (2022-09-19T10:31:13Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。