Fugu-MT 論文翻訳(概要): Policy Adaptation from Foundation Model Feedback

論文の概要: Policy Adaptation from Foundation Model Feedback

arxiv url: http://arxiv.org/abs/2212.07398v4
Date: Tue, 21 Mar 2023 16:16:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 01:11:27.446681
Title: Policy Adaptation from Foundation Model Feedback
Title（参考訳）: 基礎モデルフィードバックからの政策適応
Authors: Yuying Ge, Annabella Macaluso, Li Erran Li, Ping Luo, Xiaolong Wang
Abstract要約: 視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。本研究では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。 PAFFはすべてのケースにおいて大きなマージンでベースラインを改善することを示す。
参考スコア（独自算出の注目度）: 31.5870515250885
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress on vision-language foundation models have brought significant advancement to building general-purpose robots. By using the pre-trained models to encode the scene and instructions as inputs for decision making, the instruction-conditioned policy can generalize across different objects and tasks. While this is encouraging, the policy still fails in most cases given an unseen task or environment. In this work, we propose Policy Adaptation from Foundation model Feedback (PAFF). When deploying the trained policy to a new task or a new environment, we first let the policy play with randomly generated instructions to record the demonstrations. While the execution could be wrong, we can use the pre-trained foundation models to provide feedback to relabel the demonstrations. This automatically provides new pairs of demonstration-instruction data for policy fine-tuning. We evaluate our method on a broad range of experiments with the focus on generalization on unseen objects, unseen tasks, unseen environments, and sim-to-real transfer. We show PAFF improves baselines by a large margin in all cases. Our project page is available at https://geyuying.github.io/PAFF/
Abstract（参考訳）: 視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。これは励みになりますが、ほとんどのケースでは、目に見えないタスクや環境によってポリシーは失敗します。本稿では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。トレーニングされたポリシを新しいタスクや新しい環境にデプロイすると、まず、ランダムに生成された命令でポリシーを再生してデモを記録する。実行は間違っているかも知れませんが、トレーニング済みの基礎モデルを使用して、デモを緩和するためのフィードバックを提供することができます。これにより、ポリシーの微調整のための新しいデモインストラクションデータが自動的に提供される。提案手法は,非対象の一般化,非対象のタスク,非対象の環境,sim-to-real転送に焦点をあて,幅広い実験で評価した。 PAFFはすべてのケースにおいて大きなマージンでベースラインを改善する。私たちのプロジェクトページはhttps://geyuying.github.io/paff/で閲覧できます。

関連論文リスト

Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [26.44450403993957]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-12T14:20:33Z)
FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。この報酬は、訓練済みの政策を強化学習で微調整するために使われる。実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文参考訳（メタデータ） (2025-01-14T17:15:27Z)
Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames [15.800100875117312]
改善はロボット操作の中心であり、ほとんどのタスクは、オブジェクト上のタスク固有の領域とのインタラクションに単純化することができる。そこで本稿では,これらの空き領域におけるテキストのテキスト化を適切に行う,空き領域中心のポリシー学習手法を提案する。提案手法は,10個の実演から305個の実演で訓練された画像ベースのポリシーに準じて,行動クローンを用いて操作タスクを学習できることを実証する。
論文参考訳（メタデータ） (2024-10-15T23:57:35Z)
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-25T03:15:17Z)
Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文参考訳（メタデータ） (2024-07-10T21:55:44Z)
Learning Generalizable Manipulation Policies with Object-Centric 3D Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。 GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文参考訳（メタデータ） (2023-10-22T18:51:45Z)
Residual Q-Learning: Offline and Online Policy Customization without Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。政策カスタマイズと呼ばれる新しい問題設定を定式化する。本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文参考訳（メタデータ） (2023-06-15T22:01:19Z)
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-04-05T15:52:34Z)
PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。 PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文参考訳（メタデータ） (2022-11-15T17:07:40Z)
COG: Connecting New Skills to Past Experience with Offline Reinforcement Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文参考訳（メタデータ） (2020-10-27T17:57:29Z)
Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。 DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文参考訳（メタデータ） (2020-07-08T17:56:27Z)
Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文参考訳（メタデータ） (2020-04-15T17:29:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。