論文の概要: Refined Policy Distillation: From VLA Generalists to RL Experts
- arxiv url: http://arxiv.org/abs/2503.05833v2
- Date: Mon, 04 Aug 2025 16:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.381296
- Title: Refined Policy Distillation: From VLA Generalists to RL Experts
- Title(参考訳): 精製された政策蒸留-VLAのジェネリストからRL専門家へ
- Authors: Tobias Jülg, Wolfram Burgard, Florian Walter,
- Abstract要約: 本稿では,新しい強化学習型政策精錬法であるRefined Policy Distillation (RPD)を紹介する。
RPDはVision-Language-Action Models (VLA) を、コンパクトで高性能な専門家ポリシーに精錬・精錬する。
実験結果から,RL の学生は VLA の教師に対して,高密度かつ疎度な報酬設定で優れた専門家ポリシーを学習することができることがわかった。
- 参考スコア(独自算出の注目度): 18.186499704928092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action Models (VLAs) have demonstrated remarkable generalization capabilities in real-world experiments. However, their success rates are often not on par with expert policies, and they require fine-tuning when the setup changes. In this work, we introduce Refined Policy Distillation (RPD), a novel Reinforcement Learning (RL)-based policy refinement method that bridges this performance gap through a combination of on-policy RL with behavioral cloning. The core idea of RPD is to distill and refine VLAs into compact, high-performing expert policies by guiding the student policy during RL exploration using the actions of a teacher VLA, resulting in increased sample efficiency and faster convergence. We complement our method by fine-tuned versions of Octo and OpenVLA for ManiSkill3 to evaluate RPD in simulation. While this is a key requirement for applying RL, it also yields new insights beyond existing studies on VLA performance in real-world settings. Our experimental results across various manipulation tasks show that RPD enables the RL student to learn expert policies that outperform the VLA teacher in both dense and sparse reward settings, while also achieving faster convergence than the RL baseline. Our approach is even robust to changes in camera perspective and can generalize to task variations that the underlying VLA cannot solve. Our code, dataset, VLA checkpoints, and videos are available at https://refined-policy-distillation.github.io
- Abstract(参考訳): VLA(Vision-Language-Action Models)は実世界の実験において顕著な一般化能力を示す。
しかし、彼らの成功率はしばしば専門家の方針に匹敵せず、設定が変わったときに微調整が必要になる。
本稿では,RLを基盤とした新しい政策改善手法であるRefined Policy Distillation (RPD)を紹介する。
RPDの中核となる考え方は、教師のVLAの行動を用いてRL探索中に生徒の政策を導くことにより、VLAをコンパクトで高性能な専門家ポリシーに蒸留・精錬することであり、結果としてサンプル効率が向上し、より早く収束する。
ManiSkill3のOctoとOpenVLAを微調整で補完し,シミュレーションにおけるRCDの評価を行う。
これはRLを適用する上で重要な要件であるが、現実の環境でのVLAのパフォーマンスに関する既存の研究を超えて、新たな洞察をもたらす。
様々な操作課題を対象とした実験結果から,RL の学生は,RL のベースラインよりも高速な収束を達成しつつ,VLA の教師に優越する専門家方針を学習できることがわかった。
我々のアプローチは、カメラの視点の変化に対してさらに堅牢であり、基礎となるVLAが解決できないタスクのバリエーションに一般化することができる。
私たちのコード、データセット、VLAチェックポイント、ビデオはhttps://refined-policy-distillation.github.ioで公開されています。
関連論文リスト
- What Can RL Bring to VLA Generalization? An Empirical Study [42.58811485942049]
VLA(Large Vision-Language Action)モデルは、AIを具現化する大きな可能性を示している。
教師付き微調整(SFT)による主な訓練は、分散シフト下での複合誤差による一般化を制限する。
本稿では,VLAの一般化評価のための総合的ベンチマークを導入し,RL微調整の影響を系統的に検討する。
論文 参考訳(メタデータ) (2025-05-26T10:19:26Z) - LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models [28.264011412168347]
政策探究は強化学習(RL)において重要であり、既存のアプローチには欲求、ガウス過程などが含まれる。
大規模言語モデル(LLM)を用いたタスク固有探索戦略を適応的に生成するLLM-Explorerを設計する。
我々の設計は、DQNシリーズ、DDPG、TD3など、広く使われているRLアルゴリズムと互換性のあるプラグインモジュールである。
論文 参考訳(メタデータ) (2025-05-21T09:24:23Z) - Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better [0.3021678014343889]
監視学習(SL)と強化学習(RL)は、複雑なタスクのための汎用エージェントの訓練に広く用いられている。
本稿ではゼロショット一般化の観点からSLとRLを直接比較する。
論文 参考訳(メタデータ) (2025-03-19T21:03:27Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。