論文の概要: Self-Play and Self-Describe: Policy Adaptation with Vision-Language
Foundation Models
- arxiv url: http://arxiv.org/abs/2212.07398v1
- Date: Wed, 14 Dec 2022 18:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:08:16.218102
- Title: Self-Play and Self-Describe: Policy Adaptation with Vision-Language
Foundation Models
- Title(参考訳): 自己再生と自己記述--視覚言語基礎モデルによる政策適応
- Authors: Yuying Ge, Annabella Macaluso, Li Erran Li, Ping Luo, Xiaolong Wang
- Abstract要約: 我々は、視覚言語基礎モデルを目に見えないタスクや環境に適用するために、Self-PLAYとSelf-Describeを導入します。
SPLAYDは,すべてのケースにおいて,ベースラインを大きなマージンで改善することを示す。
- 参考スコア(独自算出の注目度): 31.5870515250885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress on vision-language foundation models have brought significant
advancement to building general-purpose robots. By using the pre-trained models
to encode the scene and instructions as inputs for decision making, the
instruction-conditioned policy can generalize across different objects and
tasks. While this is encouraging, the policy still fails in most cases given an
unseen task or environment. To adapt the policy to unseen tasks and
environments, we explore a new paradigm on leveraging the pre-trained
foundation models with Self-PLAY and Self-Describe (SPLAYD). When deploying the
trained policy to a new task or a new environment, we first let the policy
self-play with randomly generated instructions to record the demonstrations.
While the execution could be wrong, we can use the pre-trained foundation
models to accurately self-describe (i.e., re-label or classify) the
demonstrations. This automatically provides new pairs of
demonstration-instruction data for policy fine-tuning. We evaluate our method
on a broad range of experiments with the focus on generalization on unseen
objects, unseen tasks, unseen environments, and sim-to-real transfer. We show
SPLAYD improves baselines by a large margin in all cases. Our project page is
available at https://geyuying.github.io/SPLAYD/
- Abstract(参考訳): 視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。
事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。
これは励みになりますが、ほとんどのケースでは、目に見えないタスクや環境によってポリシーは失敗します。
このポリシーを未認識のタスクや環境に適応させるために,自己プレイと自己記述(splayd)で事前学習された基礎モデルを活用するための新しいパラダイムを探求する。
訓練されたポリシーを新しいタスクや新しい環境にデプロイすると、まずランダムに生成された命令でポリシーを自己再生してデモを記録する。
実行が間違っている可能性があるが、事前訓練された基礎モデルを使用して、デモを正確に自己記述(リラベルまたは分類)することができる。
これにより、ポリシーの微調整のための新しいデモインストラクションデータが自動的に提供される。
提案手法は,非対象の一般化,非対象のタスク,非対象の環境,sim-to-real転送に焦点をあて,幅広い実験で評価した。
SPLAYDは,すべてのケースにおいて,ベースラインを大きなマージンで改善することを示す。
プロジェクトページはhttps://geyuying.github.io/splayd/で閲覧できます。
関連論文リスト
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames [15.800100875117312]
改善はロボット操作の中心であり、ほとんどのタスクは、オブジェクト上のタスク固有の領域とのインタラクションに単純化することができる。
そこで本稿では,これらの空き領域におけるテキストのテキスト化を適切に行う,空き領域中心のポリシー学習手法を提案する。
提案手法は,10個の実演から305個の実演で訓練された画像ベースのポリシーに準じて,行動クローンを用いて操作タスクを学習できることを実証する。
論文 参考訳(メタデータ) (2024-10-15T23:57:35Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文 参考訳(メタデータ) (2022-11-15T17:07:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。