論文の概要: Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping
- arxiv url: http://arxiv.org/abs/2301.02099v1
- Date: Thu, 5 Jan 2023 15:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:40:37.652134
- Title: Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping
- Title(参考訳): 自己監督型リワードシェイピングによるゴールコンディションポリシのオフライン学習
- Authors: Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Alessandro
Lazaric, Karteek Alahari
- Abstract要約: 本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 94.89128390954572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing agents that can execute multiple skills by learning from
pre-collected datasets is an important problem in robotics, where online
interaction with the environment is extremely time-consuming. Moreover,
manually designing reward functions for every single desired skill is
prohibitive. Prior works targeted these challenges by learning goal-conditioned
policies from offline datasets without manually specified rewards, through
hindsight relabelling. These methods suffer from the issue of sparsity of
rewards, and fail at long-horizon tasks. In this work, we propose a novel
self-supervised learning phase on the pre-collected dataset to understand the
structure and the dynamics of the model, and shape a dense reward function for
learning policies offline. We evaluate our method on three continuous control
tasks, and show that our model significantly outperforms existing approaches,
especially on tasks that involve long-term planning.
- Abstract(参考訳): 事前収集されたデータセットから学習することで、複数のスキルを実行できるエージェントを開発することは、ロボット工学において重要な問題である。
また、必要なスキルごとに手動で報酬関数を設計することは禁じられている。
先行研究は、手動で指定した報酬なしでオフラインデータセットから目標条件付きポリシーを学習し、後見的なリラベリングを通じてこれらの課題をターゲットとした。
これらの方法は報酬の分散の問題に悩まされ、長期のタスクでは失敗する。
本研究では,事前収集したデータセット上で,モデルの構造とダイナミクスを理解し,オフラインで学習方針を学習するための高密な報酬関数を形成するための,新しい自己教師あり学習フェーズを提案する。
提案手法は,3つの連続制御タスクで評価し,提案手法が既存の手法,特に長期計画を伴うタスクを大きく上回っていることを示す。
関連論文リスト
- Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。