論文の概要: PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.14073v2
- Date: Mon, 18 Nov 2024 14:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:40.297112
- Title: PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning
- Title(参考訳): PEAC:クロスエンボディメント強化学習のための教師なし事前学習
- Authors: Chengyang Ying, Zhongkai Hao, Xinning Zhou, Xuezhou Xu, Hang Su, Xingxing Zhang, Jun Zhu,
- Abstract要約: 本稿では,教師なし学習を活用したクロス・エボディメント・アントラクショナル・RL(CEURL)の概念を導入し,エージェントがエンボディメント・アウェアやタスク非依存の知識を習得できるようにする。
我々はCEURLを扱うための新しいアルゴリズムPEAC(Pre-trained Embodiment-Aware Control)を開発し、クロス・エボディメント・プレトレーニング用に特別に設計された本質的な報酬関数を組み込んだ。
PEACは適応性能とクロスエボディメントの一般化を著しく改善し、CEURLのユニークな課題を克服する効果を示す。
- 参考スコア(独自算出の注目度): 42.40790609572487
- License:
- Abstract: Designing generalizable agents capable of adapting to diverse embodiments has achieved significant attention in Reinforcement Learning (RL), which is critical for deploying RL agents in various real-world applications. Previous Cross-Embodiment RL approaches have focused on transferring knowledge across embodiments within specific tasks. These methods often result in knowledge tightly coupled with those tasks and fail to adequately capture the distinct characteristics of different embodiments. To address this limitation, we introduce the notion of Cross-Embodiment Unsupervised RL (CEURL), which leverages unsupervised learning to enable agents to acquire embodiment-aware and task-agnostic knowledge through online interactions within reward-free environments. We formulate CEURL as a novel Controlled Embodiment Markov Decision Process (CE-MDP) and systematically analyze CEURL's pre-training objectives under CE-MDP. Based on these analyses, we develop a novel algorithm Pre-trained Embodiment-Aware Control (PEAC) for handling CEURL, incorporating an intrinsic reward function specifically designed for cross-embodiment pre-training. PEAC not only provides an intuitive optimization strategy for cross-embodiment pre-training but also can integrate flexibly with existing unsupervised RL methods, facilitating cross-embodiment exploration and skill discovery. Extensive experiments in both simulated (e.g., DMC and Robosuite) and real-world environments (e.g., legged locomotion) demonstrate that PEAC significantly improves adaptation performance and cross-embodiment generalization, demonstrating its effectiveness in overcoming the unique challenges of CEURL. The project page and code are in https://yingchengyang.github.io/ceurl.
- Abstract(参考訳): 多様な実施形態に適応できる汎用エージェントを設計することは、RLエージェントを現実世界の様々なアプリケーションに展開するのに重要な強化学習(RL)において大きな注目を集めている。
従来のクロス・エンボディメント・RLアプローチは、特定のタスクにおける実施物間での知識の伝達に重点を置いてきた。
これらの手法は、しばしばこれらのタスクと密結合した知識をもたらし、異なる実施形態の異なる特徴を適切に捉えることができない。
この制限に対処するために、エージェントが報酬のない環境でのオンラインインタラクションを通じて、教師なし学習を利用して、実施意識とタスク非依存の知識を取得することができるクロス・エボディメント・アントラクショナル・RL(CEURL)の概念を導入する。
CEURLは,CE-MDPに基づくCEURLの事前学習目標を体系的に解析し,新しいCE-MDPとして定式化する。
そこで本研究では,CEURL を扱うための事前学習型身体認識制御(PEAC)アルゴリズムを開発し,クロス・エボディメント・プレトレーニングに特化して設計された本質的な報酬関数を組み込んだ。
PEACは、クロス・エボディメント事前訓練のための直感的な最適化戦略を提供するだけでなく、既存の教師なしRL手法と柔軟に統合し、クロス・エボディメント探索とスキル発見を容易にする。
シミュレーション(例, DMC, Robosuite)と実環境(例, 足の移動)の両方における大規模な実験により, PEACは適応性能とクロスボデーメントの一般化を著しく改善し, CEURLのユニークな課題を克服する効果を示した。
プロジェクトページとコードはhttps://yingchengyang.github.io/ceurl.orgにある。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Improving Generalization in Reinforcement Learning Training Regimes for
Social Robot Navigation [5.475804640008192]
カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。
本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-08-29T00:00:18Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。