論文の概要: SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling
- arxiv url: http://arxiv.org/abs/2306.11886v3
- Date: Mon, 29 Jan 2024 17:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:31:11.906446
- Title: SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling
- Title(参考訳): SPRINT: 言語指導によるスケーラブルなポリシ事前トレーニング
- Authors: Jesse Zhang and Karl Pertsch and Jiahui Zhang and Joseph J. Lim
- Abstract要約: スケーラブルなオフラインポリシー事前学習手法であるSPRINTを提案する。
本手法では,2つの基本アイデアを用いて,事前学習タスクのベースセットを自動的に拡張する。
家庭シミュレータと実際のロボットキッチン操作タスクの実験結果から、SPRINTは、新しい長距離タスクの学習を大幅に高速化することが示された。
- 参考スコア(独自算出の注目度): 28.380226726781082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training robot policies with a rich set of skills can substantially
accelerate the learning of downstream tasks. Prior works have defined
pre-training tasks via natural language instructions, but doing so requires
tedious human annotation of hundreds of thousands of instructions. Thus, we
propose SPRINT, a scalable offline policy pre-training approach which
substantially reduces the human effort needed for pre-training a diverse set of
skills. Our method uses two core ideas to automatically expand a base set of
pre-training tasks: instruction relabeling via large language models and
cross-trajectory skill chaining through offline reinforcement learning. As a
result, SPRINT pre-training equips robots with a much richer repertoire of
skills. Experimental results in a household simulator and on a real robot
kitchen manipulation task show that SPRINT leads to substantially faster
learning of new long-horizon tasks than previous pre-training approaches.
Website at https://clvrai.com/sprint.
- Abstract(参考訳): 豊富なスキルを備えた事前学習ロボットポリシーは、下流タスクの学習を効果的に促進することができる。
以前の作業では、自然言語命令による事前学習タスクを定義していたが、そのためには数十万の命令による退屈な人間のアノテーションが必要になる。
そこで本稿では,多様なスキルセットの事前学習に必要な人的労力を大幅に削減する,スケーラブルなオフラインポリシ事前学習アプローチであるSPRINTを提案する。
提案手法では,大規模言語モデルによる命令レバーベリングと,オフライン強化学習によるクロストラックスキルチェーンという,事前学習タスクのベースセットを自動的に拡張する。
その結果、SPRINTは、よりリッチなスキルのレパートリーを持つロボットを事前訓練する。
家庭内シミュレータと実際のロボットキッチン操作タスクにおける実験結果は、スプリントが以前の事前トレーニングアプローチよりも、新たなロングホライゾンタスクの学習をかなり速くすることを示している。
website at https://clvrai.com/sprint.com
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - When Prompt-based Incremental Learning Does Not Meet Strong Pretraining [36.0889029038102]
本研究では,学習可能な適応型プロンプトジェネレータ(APG)を開発した。
鍵となるのは、プロンプト検索と学習プロセスを学習可能なプロンプトジェネレータに統一することである。
本手法は, 事前学習を伴わずに, 先進的な漸進的学習法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-21T03:33:21Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。