論文の概要: C3PO: Learning to Achieve Arbitrary Goals via Massively Entropic
Pretraining
- arxiv url: http://arxiv.org/abs/2211.03521v1
- Date: Mon, 7 Nov 2022 13:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:13:43.814982
- Title: C3PO: Learning to Achieve Arbitrary Goals via Massively Entropic
Pretraining
- Title(参考訳): C3PO:大規模エントロピー事前学習による任意ゴール達成の学習
- Authors: Alexis Jacq, Manu Orsini, Gabriel Dulac-Arnold, Olivier Pietquin,
Matthieu Geist, Olivier Bachem
- Abstract要約: 任意の位置とポーズを達成可能なポリシーを学習する手法を提案する。
このようなポリシーにより、制御が容易になり、下流タスクのキービルディングブロックとして再利用できる。
- 参考スコア(独自算出の注目度): 47.87921493422219
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given a particular embodiment, we propose a novel method (C3PO) that learns
policies able to achieve any arbitrary position and pose. Such a policy would
allow for easier control, and would be re-useable as a key building block for
downstream tasks. The method is two-fold: First, we introduce a novel
exploration algorithm that optimizes for uniform coverage, is able to discover
a set of achievable states, and investigates its abilities in attaining both
high coverage, and hard-to-discover states; Second, we leverage this set of
achievable states as training data for a universal goal-achievement policy, a
goal-based SAC variant. We demonstrate the trained policy's performance in
achieving a large number of novel states. Finally, we showcase the influence of
massive unsupervised training of a goal-achievement policy with
state-of-the-art pose-based control of the Hopper, Walker, Halfcheetah,
Humanoid and Ant embodiments.
- Abstract(参考訳): 特定の実施形態が与えられた場合,任意の立場や姿勢を実現できる方針を学習する新しい手法(c3po)を提案する。
このようなポリシーにより、制御が容易になり、下流タスクのキービルディングブロックとして再利用できる。
まず、一様カバレッジを最適化し、達成可能な状態の集合を発見できる新しい探索アルゴリズムを導入し、高いカバレッジと難解な状態の両方を達成する能力について検討し、また、この達成可能な状態の集合を、ゴールベースSACの汎用的な目標達成ポリシーのトレーニングデータとして活用する。
我々は多数の新規状態を達成するための訓練されたポリシーのパフォーマンスを実証する。
最後に, ホッパー, ウォーカー, ハーフチータ, ヒューマノイド, アントエンボディメントの最先端のポーズベース制御による目標達成政策の大規模教師なし訓練の影響について述べる。
関連論文リスト
- Backward Learning for Goal-Conditioned Policies [3.3181276611945263]
本稿では,まず逆行する世界モデルを学習し,第2に目標到達逆行を発生させ,第3に最短経路探索アルゴリズムを用いてこれらのシーケンスを改良する多段階手順を提案する。
我々は,64ドル64セントの鳥の眼像を6,4倍の確率で観測できる決定論的迷路環境において,その有効性を検証し,連続的にいくつかの目標を達成することを示す。
論文 参考訳(メタデータ) (2023-12-08T13:52:16Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。