論文の概要: Refined Policy Distillation: From VLA Generalists to RL Experts
- arxiv url: http://arxiv.org/abs/2503.05833v1
- Date: Thu, 06 Mar 2025 12:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:36.823176
- Title: Refined Policy Distillation: From VLA Generalists to RL Experts
- Title(参考訳): 精製された政策蒸留-VLAのジェネリストからRL専門家へ
- Authors: Tobias Jülg, Wolfram Burgard, Florian Walter,
- Abstract要約: 本稿では,RLに基づく政策精錬法であるRefined Policy Distillation (RPD)を提案する。
RPDにより、RLエージェントは、密集した報酬設定とまばらな報酬設定の両方において、教師のパフォーマンスを上回る専門家のポリシーを学ぶことができる。
我々のアプローチは、カメラの視点の変化に対してさらに堅牢であり、基礎となるVLAが解決できないタスクのバリエーションに一般化することができる。
- 参考スコア(独自算出の注目度): 18.186499704928092
- License:
- Abstract: Recent generalist Vision-Language-Action Models (VLAs) can perform a variety of tasks on real robots with remarkable generalization capabilities. However, reported success rates are often not on par with those of expert policies. Moreover, VLAs usually do not work out of the box and often must be fine-tuned as they are sensitive to setup changes. In this work, we present Refined Policy Distillation (RPD), an RL-based policy refinement method that enables the distillation of large generalist models into small, high-performing expert policies. The student policy is guided during the RL exploration by actions of a teacher VLA for increased sample efficiency and faster convergence. Different from previous work that focuses on applying VLAs to real-world experiments, we create fine-tuned versions of Octo and OpenVLA for ManiSkill2 to evaluate RPD in simulation. As our results for different manipulation tasks demonstrate, RPD enables the RL agent to learn expert policies that surpass the teacher's performance in both dense and sparse reward settings. Our approach is even robust to changes in the camera perspective and can generalize to task variations that the underlying VLA cannot solve.
- Abstract(参考訳): 近年のビジョン・ランゲージ・アクション・モデル(VLA)は、目覚ましい一般化能力を持つ実ロボット上で様々なタスクを実行できる。
しかし、報告された成功率はしばしば専門家の政策と一致しない。
さらに、VLAは通常、最初から動作せず、設定の変更に敏感なため、微調整されなければならないことが多い。
本稿では,RLをベースとした政策精錬法であるRefined Policy Distillation(RPD)について述べる。
学生政策は、教師VLAの行動によってRL探索中にガイドされ、サンプル効率が向上し、より早く収束する。
実世界の実験にVLAを適用した以前の研究とは違って,ManiSkill2用のOctoとOpenVLAの微調整バージョンを作成し,シミュレーションでPDを評価する。
実験の結果,RLエージェントは,教師のパフォーマンスを超える専門家の政策を,密接な報酬設定と疎い報酬設定の両方で学習することができることがわかった。
我々のアプローチは、カメラの視点の変化に対してさらに堅牢であり、基礎となるVLAが解決できないタスクのバリエーションに一般化することができる。
関連論文リスト
- RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。