Fugu-MT 論文翻訳(概要): PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning

論文の概要: PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning

arxiv url: http://arxiv.org/abs/2405.14073v2
Date: Mon, 18 Nov 2024 14:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.583721
Title: PEAC: Unsupervised Pre-training for Cross-Embodiment Reinforcement Learning
Title（参考訳）: PEAC:クロスエンボディメント強化学習のための教師なし事前学習
Authors: Chengyang Ying, Zhongkai Hao, Xinning Zhou, Xuezhou Xu, Hang Su, Xingxing Zhang, Jun Zhu,
Abstract要約: 本稿では,教師なし学習を活用したクロス・エボディメント・アントラクショナル・RL(CEURL)の概念を導入し,エージェントがエンボディメント・アウェアやタスク非依存の知識を習得できるようにする。我々はCEURLを扱うための新しいアルゴリズムPEAC(Pre-trained Embodiment-Aware Control)を開発し、クロス・エボディメント・プレトレーニング用に特別に設計された本質的な報酬関数を組み込んだ。 PEACは適応性能とクロスエボディメントの一般化を著しく改善し、CEURLのユニークな課題を克服する効果を示す。
参考スコア（独自算出の注目度）: 42.40790609572487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Designing generalizable agents capable of adapting to diverse embodiments has achieved significant attention in Reinforcement Learning (RL), which is critical for deploying RL agents in various real-world applications. Previous Cross-Embodiment RL approaches have focused on transferring knowledge across embodiments within specific tasks. These methods often result in knowledge tightly coupled with those tasks and fail to adequately capture the distinct characteristics of different embodiments. To address this limitation, we introduce the notion of Cross-Embodiment Unsupervised RL (CEURL), which leverages unsupervised learning to enable agents to acquire embodiment-aware and task-agnostic knowledge through online interactions within reward-free environments. We formulate CEURL as a novel Controlled Embodiment Markov Decision Process (CE-MDP) and systematically analyze CEURL's pre-training objectives under CE-MDP. Based on these analyses, we develop a novel algorithm Pre-trained Embodiment-Aware Control (PEAC) for handling CEURL, incorporating an intrinsic reward function specifically designed for cross-embodiment pre-training. PEAC not only provides an intuitive optimization strategy for cross-embodiment pre-training but also can integrate flexibly with existing unsupervised RL methods, facilitating cross-embodiment exploration and skill discovery. Extensive experiments in both simulated (e.g., DMC and Robosuite) and real-world environments (e.g., legged locomotion) demonstrate that PEAC significantly improves adaptation performance and cross-embodiment generalization, demonstrating its effectiveness in overcoming the unique challenges of CEURL. The project page and code are in https://yingchengyang.github.io/ceurl.
Abstract（参考訳）: 多様な実施形態に適応できる汎用エージェントを設計することは、RLエージェントを現実世界の様々なアプリケーションに展開するのに重要な強化学習(RL)において大きな注目を集めている。従来のクロス・エンボディメント・RLアプローチは、特定のタスクにおける実施物間での知識の伝達に重点を置いてきた。これらの手法は、しばしばこれらのタスクと密結合した知識をもたらし、異なる実施形態の異なる特徴を適切に捉えることができない。この制限に対処するために、エージェントが報酬のない環境でのオンラインインタラクションを通じて、教師なし学習を利用して、実施意識とタスク非依存の知識を取得することができるクロス・エボディメント・アントラクショナル・RL(CEURL)の概念を導入する。 CEURLは,CE-MDPに基づくCEURLの事前学習目標を体系的に解析し,新しいCE-MDPとして定式化する。そこで本研究では,CEURL を扱うための事前学習型身体認識制御(PEAC)アルゴリズムを開発し,クロス・エボディメント・プレトレーニングに特化して設計された本質的な報酬関数を組み込んだ。 PEACは、クロス・エボディメント事前訓練のための直感的な最適化戦略を提供するだけでなく、既存の教師なしRL手法と柔軟に統合し、クロス・エボディメント探索とスキル発見を容易にする。シミュレーション(例, DMC, Robosuite)と実環境(例, 足の移動)の両方における大規模な実験により, PEACは適応性能とクロスボデーメントの一般化を著しく改善し, CEURLのユニークな課題を克服する効果を示した。プロジェクトページとコードはhttps://yingchengyang.github.io/ceurl.orgにある。

関連論文リスト

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [37.62558445850573]
オンラインRLトレーニングのためのアルゴリズム,反復的影響に基づくフィルタリング(IIF)を提案する。 IIFはサンプルの複雑さを減らし、トレーニングをスピードアップし、より高いリターンを達成する。これらの結果は、オンラインRLの解釈可能性、効率、有効性を向上させる。
論文参考訳（メタデータ） (2025-05-25T19:25:57Z)
Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling [5.321647713109401]
ゼロショットの修正のような既存のアプローチは、目に見えない意図でパフォーマンス劣化と戦っている。我々は,RL(Reinforcement Learning)とRCS(Reward-based Curriculum Smpling)を併用して,意図検出タスクにおけるグループ相対政策最適化トレーニングを行う。
論文参考訳（メタデータ） (2025-04-18T09:52:12Z)
Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。 ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文参考訳（メタデータ） (2025-01-31T18:57:08Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。 RLeXploreは,8つの最先端固有の報酬手法の信頼性のある実装を提供する,統一的で高度にモジュール化されたプラグイン・アンド・プレイ・フレームワークである。
論文参考訳（メタデータ） (2024-05-29T22:23:20Z)
Improving Generalization in Reinforcement Learning Training Regimes for Social Robot Navigation [5.475804640008192]
カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
論文参考訳（メタデータ） (2023-08-29T00:00:18Z)
Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。 Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文参考訳（メタデータ） (2022-10-20T15:34:52Z)
A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文参考訳（メタデータ） (2022-08-07T06:17:15Z)
Constrained Reinforcement Learning for Robotics via Scenario-Based Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文参考訳（メタデータ） (2022-06-20T07:19:38Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Cross-Trajectory Representation Learning for Zero-Shot Generalization in RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文参考訳（メタデータ） (2021-06-04T00:43:10Z)
Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文参考訳（メタデータ） (2020-11-02T16:19:44Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。