論文の概要: Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model
- arxiv url: http://arxiv.org/abs/2412.13630v1
- Date: Wed, 18 Dec 2024 09:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:52.124532
- Title: Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model
- Title(参考訳): 政策デコレータ:大規模政策モデルのためのモデルに依存しないオンラインリファインメント
- Authors: Xiu Yuan, Tongzhou Mu, Stone Tao, Yunhao Fang, Mengke Zhang, Hao Su,
- Abstract要約: 本稿では,オフラインで学習した模倣学習モデルの改良を,オンラインと環境とのインタラクションを通じて検討する。
モデルに依存しない残留ポリシーを用いて、オンラインインタラクション中に大規模な模倣学習モデルを洗練するポリシデコレータを導入する。
- 参考スコア(独自算出の注目度): 17.299418356048495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in robot learning have used imitation learning with large models and extensive demonstrations to develop effective policies. However, these models are often limited by the quantity, quality, and diversity of demonstrations. This paper explores improving offline-trained imitation learning models through online interactions with the environment. We introduce Policy Decorator, which uses a model-agnostic residual policy to refine large imitation learning models during online interactions. By implementing controlled exploration strategies, Policy Decorator enables stable, sample-efficient online learning. Our evaluation spans eight tasks across two benchmarks-ManiSkill and Adroit-and involves two state-of-the-art imitation learning models (Behavior Transformer and Diffusion Policy). The results show Policy Decorator effectively improves the offline-trained policies and preserves the smooth motion of imitation learning models, avoiding the erratic behaviors of pure RL policies. See our project page (https://policydecorator.github.io) for videos.
- Abstract(参考訳): ロボット学習の最近の進歩は、大規模なモデルによる模倣学習と、効果的なポリシーを開発するための広範なデモンストレーションを用いてきた。
しかしながら、これらのモデルはデモの量、品質、多様性によって制限されることが多い。
本稿では,オフラインで学習した模倣学習モデルの改良を,オンラインと環境とのインタラクションを通じて検討する。
モデルに依存しない残留ポリシーを用いて、オンラインインタラクション中に大規模な模倣学習モデルを洗練するポリシデコレータを導入する。
制御された探索戦略を実装することにより、ポリシデコレータは安定的でサンプル効率のよいオンライン学習を可能にする。
評価は、ManiSkillとAdroitの2つのベンチマークにまたがる8つのタスクにまたがっており、2つの最先端の模倣学習モデル(Behavior TransformerとDiffusion Policy)が関係している。
その結果、ポリシーデコレータはオフラインで学習したポリシーを効果的に改善し、模倣学習モデルのスムーズな動作を保ち、純粋なRLポリシーの不規則な動作を避けた。
ビデオのプロジェクトページ(https://policydecorator.github.io)を参照してください。
関連論文リスト
- Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。
しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文 参考訳(メタデータ) (2025-03-03T04:51:40Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。