論文の概要: Effective Tuning Strategies for Generalist Robot Manipulation Policies
- arxiv url: http://arxiv.org/abs/2410.01220v1
- Date: Wed, 2 Oct 2024 04:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:28:32.808809
- Title: Effective Tuning Strategies for Generalist Robot Manipulation Policies
- Title(参考訳): 汎用ロボットマニピュレーション政策のための効果的なチューニング戦略
- Authors: Wenbo Zhang, Yang Li, Yanyuan Qiao, Siyuan Huang, Jiajun Liu, Feras Dayoub, Xiao Ma, Lingqiao Liu,
- Abstract要約: 汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。
ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。
- 参考スコア(独自算出の注目度): 45.36380662552082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist robot manipulation policies (GMPs) have the potential to generalize across a wide range of tasks, devices, and environments. However, existing policies continue to struggle with out-of-distribution scenarios due to the inherent difficulty of collecting sufficient action data to cover extensively diverse domains. While fine-tuning offers a practical way to quickly adapt a GMPs to novel domains and tasks with limited samples, we observe that the performance of the resulting GMPs differs significantly with respect to the design choices of fine-tuning strategies. In this work, we first conduct an in-depth empirical study to investigate the effect of key factors in GMPs fine-tuning strategies, covering the action space, policy head, supervision signal and the choice of tunable parameters, where 2,500 rollouts are evaluated for a single configuration. We systematically discuss and summarize our findings and identify the key design choices, which we believe give a practical guideline for GMPs fine-tuning. We observe that in a low-data regime, with carefully chosen fine-tuning strategies, a GMPs significantly outperforms the state-of-the-art imitation learning algorithms. The results presented in this work establish a new baseline for future studies on fine-tuned GMPs, and provide a significant addition to the GMPs toolbox for the community.
- Abstract(参考訳): 汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。
しかし、多様な領域をカバーする十分なアクションデータを集めることの難しさから、既存の政策は、配布外シナリオに苦慮し続けている。
ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。
本研究は,まず,GMPの微調整戦略における重要な要素の影響について,アクション空間,ポリシーヘッド,監督信号,調整可能なパラメータの選択について検討し,2500個のロールアウトを単一構成で評価する実験である。
本研究の成果を体系的に議論し要約し,GMPの微調整の実践的指針となる重要な設計選択を同定する。
我々は、慎重に選択された微調整戦略により、低データ体制において、GMPは最先端の模倣学習アルゴリズムよりも著しく優れていることを観察する。
本研究で提示された成果は、今後の微調整GMP研究のベースラインを確立し、コミュニティ向けのGMPsツールボックスに重要な追加を提供するものである。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - G-MAP: General Memory-Augmented Pre-trained Language Model for Domain
Tasks [68.87524746922263]
G-MAP(General Memory Augmented Pre-trained Language Model)の新たなフレームワークを提案する。
G-MAPは、凍った一般PLMから構築されたメモリ表現によって、一般知識を失うことなくドメイン固有のPLMを増強する。
各種分野(生物・コンピュータ科学出版物,ニュース,レビュー)におけるG-MAPの有効性とタスクの種類(テキスト分類,QA,NER)について示す。
論文 参考訳(メタデータ) (2022-12-07T13:07:24Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward
Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。
本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。
プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:29:20Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。