論文の概要: ClothPPO: A Proximal Policy Optimization Enhancing Framework for Robotic Cloth Manipulation with Observation-Aligned Action Spaces
- arxiv url: http://arxiv.org/abs/2405.04549v1
- Date: Sun, 5 May 2024 12:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 16:14:28.500202
- Title: ClothPPO: A Proximal Policy Optimization Enhancing Framework for Robotic Cloth Manipulation with Observation-Aligned Action Spaces
- Title(参考訳): ClothPPO: 行動空間を考慮したロボット衣服操作のためのポリシー最適化フレームワーク
- Authors: Libing Yang, Yang Li, Long Chen,
- Abstract要約: ClothPPOは、ポリシー勾配アルゴリズムを使用して、服の展開作業における観察と一致した巨大な106アクション空間を持つ事前訓練されたモデルを強化するフレームワークである。
政策のベースラインモデルをトレーニングするために、教師付き事前訓練ステージが使用される。
第2段階では、PPO(Proximal Policy Optimization)を用いて、観察整列された行動空間内の教師付きモデルを導出する。
- 参考スコア(独自算出の注目度): 6.769398232734668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based robotic cloth unfolding has made great progress recently. However, prior works predominantly rely on value learning and have not fully explored policy-based techniques. Recently, the success of reinforcement learning on the large language model has shown that the policy gradient algorithm can enhance policy with huge action space. In this paper, we introduce ClothPPO, a framework that employs a policy gradient algorithm based on actor-critic architecture to enhance a pre-trained model with huge 10^6 action spaces aligned with observation in the task of unfolding clothes. To this end, we redefine the cloth manipulation problem as a partially observable Markov decision process. A supervised pre-training stage is employed to train a baseline model of our policy. In the second stage, the Proximal Policy Optimization (PPO) is utilized to guide the supervised model within the observation-aligned action space. By optimizing and updating the strategy, our proposed method increases the garment's surface area for cloth unfolding under the soft-body manipulation task. Experimental results show that our proposed framework can further improve the unfolding performance of other state-of-the-art methods.
- Abstract(参考訳): ビジョンベースのロボット布の展開は、最近大きな進歩を遂げた。
しかしながら、事前の作業は主に価値学習に依存しており、ポリシーベースのテクニックを十分に検討していない。
近年,大規模言語モデルを用いた強化学習の成功により,政策勾配アルゴリズムは巨大な行動空間を持つ政策を向上できることが示された。
本稿では,アクタ-クリティックアーキテクチャに基づくポリシー勾配アルゴリズムを用いて,服の展開作業における観察に合わせた巨大な10^6アクション空間を持つ事前学習モデルを強化するフレームワークであるClathPPOを紹介する。
この目的のために,布の操作問題を部分的に観察可能なマルコフ決定プロセスとして再定義する。
政策のベースラインモデルをトレーニングするために、教師付き事前訓練ステージが使用される。
第2段階では、PPO(Proximal Policy Optimization)を用いて、観察整列された行動空間内の教師付きモデルを導出する。
この戦略を最適化し,更新することにより,ソフトボディ操作作業下で展開する布地の表面積を増大させる手法を提案する。
実験の結果,提案するフレームワークは,他の最先端手法の展開性能をさらに向上させることができることがわかった。
関連論文リスト
- Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow [14.681645502417215]
エネルギーベース正規化フロー(EBFlow)を用いた新しいMaxEnt RLフレームワークを提案する。
このフレームワークは、政策評価ステップと政策改善ステップを統合し、単一の目標トレーニングプロセスをもたらす。
提案手法は,広く採用されている代表ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-22T13:26:26Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy [11.34520632697191]
強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。