論文の概要: Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model
- arxiv url: http://arxiv.org/abs/2412.13630v1
- Date: Wed, 18 Dec 2024 09:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:34.150527
- Title: Policy Decorator: Model-Agnostic Online Refinement for Large Policy Model
- Title(参考訳): 政策デコレータ:大規模政策モデルのためのモデルに依存しないオンラインリファインメント
- Authors: Xiu Yuan, Tongzhou Mu, Stone Tao, Yunhao Fang, Mengke Zhang, Hao Su,
- Abstract要約: 本稿では,オフラインで学習した模倣学習モデルの改良を,オンラインと環境とのインタラクションを通じて検討する。
モデルに依存しない残留ポリシーを用いて、オンラインインタラクション中に大規模な模倣学習モデルを洗練するポリシデコレータを導入する。
- 参考スコア(独自算出の注目度): 17.299418356048495
- License:
- Abstract: Recent advancements in robot learning have used imitation learning with large models and extensive demonstrations to develop effective policies. However, these models are often limited by the quantity, quality, and diversity of demonstrations. This paper explores improving offline-trained imitation learning models through online interactions with the environment. We introduce Policy Decorator, which uses a model-agnostic residual policy to refine large imitation learning models during online interactions. By implementing controlled exploration strategies, Policy Decorator enables stable, sample-efficient online learning. Our evaluation spans eight tasks across two benchmarks-ManiSkill and Adroit-and involves two state-of-the-art imitation learning models (Behavior Transformer and Diffusion Policy). The results show Policy Decorator effectively improves the offline-trained policies and preserves the smooth motion of imitation learning models, avoiding the erratic behaviors of pure RL policies. See our project page (https://policydecorator.github.io) for videos.
- Abstract(参考訳): ロボット学習の最近の進歩は、大規模なモデルによる模倣学習と、効果的なポリシーを開発するための広範なデモンストレーションを用いてきた。
しかしながら、これらのモデルはデモの量、品質、多様性によって制限されることが多い。
本稿では,オフラインで学習した模倣学習モデルの改良を,オンラインと環境とのインタラクションを通じて検討する。
モデルに依存しない残留ポリシーを用いて、オンラインインタラクション中に大規模な模倣学習モデルを洗練するポリシデコレータを導入する。
制御された探索戦略を実装することにより、ポリシデコレータは安定的でサンプル効率のよいオンライン学習を可能にする。
評価は、ManiSkillとAdroitの2つのベンチマークにまたがる8つのタスクにまたがっており、2つの最先端の模倣学習モデル(Behavior TransformerとDiffusion Policy)が関係している。
その結果、ポリシーデコレータはオフラインで学習したポリシーを効果的に改善し、模倣学習モデルのスムーズな動作を保ち、純粋なRLポリシーの不規則な動作を避けた。
ビデオのプロジェクトページ(https://policydecorator.github.io)を参照してください。
関連論文リスト
- Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。