論文の概要: Goal-Conditioned Supervised Learning with Sub-Goal Prediction
- arxiv url: http://arxiv.org/abs/2305.10171v1
- Date: Wed, 17 May 2023 12:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:08:55.444262
- Title: Goal-Conditioned Supervised Learning with Sub-Goal Prediction
- Title(参考訳): 準ゴール予測を用いたゴールコンディション型教師付き学習
- Authors: Tom Jurgenson and Aviv Tamar
- Abstract要約: 本稿では,目標条件付き強化学習に取り組むために,トラジェクティブ反復学習器(TraIL)を提案する。
TraILはさらに、トラジェクトリの情報を活用し、それを学習に使用してアクションとサブゴールの両方を予測する。
いくつかの一般的な問題設定では、実際の目標を予測されたTraILサブゴールに置き換えることで、エージェントはより多くの目標状態に到達することができる。
- 参考スコア(独自算出の注目度): 24.172457177786523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a simple yet effective algorithm -- goal-conditioned
supervised-learning (GCSL) -- was proposed to tackle goal-conditioned
reinforcement-learning. GCSL is based on the principle of hindsight learning:
by observing states visited in previously executed trajectories and treating
them as attained goals, GCSL learns the corresponding actions via supervised
learning. However, GCSL only learns a goal-conditioned policy, discarding other
information in the process. Our insight is that the same hindsight principle
can be used to learn to predict goal-conditioned sub-goals from the same
trajectory. Based on this idea, we propose Trajectory Iterative Learner
(TraIL), an extension of GCSL that further exploits the information in a
trajectory, and uses it for learning to predict both actions and sub-goals. We
investigate the settings in which TraIL can make better use of the data, and
discover that for several popular problem settings, replacing real goals in
GCSL with predicted TraIL sub-goals allows the agent to reach a greater set of
goal states using the exact same data as GCSL, thereby improving its overall
performance.
- Abstract(参考訳): 近年,目標条件付き強化学習(GCSL)に対処するために,目標条件付き教師学習(GCSL)という単純なアルゴリズムが提案されている。
GCSLは、事前に実行された軌道で訪れた状態を観察し、それらを達成目標として扱い、GCSLは教師付き学習を通じて対応する行動を学ぶ。
しかし、GCSLはゴール条件付きポリシーのみを学び、プロセス内で他の情報を捨てる。
私たちの洞察では、同じ後見原理を使って、同じ軌道からゴール条件のサブゴールを予測することができる。
この考え方に基づき,gcslの拡張であるtrail(travel iterative learner)を提案し,これを用いて動作とサブゴールの両方を予測する。
その結果,gcslと全く同じデータを用いて,gcslの実際の目標を予測されたパスサブゴールに置き換えることで,gcslと全く同じデータを用いて,エージェントがより多くの目標状態に到達することが可能となり,全体的なパフォーマンスが向上することがわかった。
関連論文リスト
- SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - TarGF: Learning Target Gradient Field for Object Rearrangement [8.49306925839127]
我々は、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから規範的なターゲット分布へオブジェクトを並べ替えることに焦点を当てる。
報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡を実証として収集することは困難である。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
論文 参考訳(メタデータ) (2022-09-02T07:20:34Z) - Rethinking Goal-conditioned Supervised Learning and Its Connection to
Offline RL [49.26825108780872]
Goal-Conditioned Supervised Learning (GCSL)は、自己生成体験を反復的に再現して、新たな学習フレームワークを提供する。
我々はGCSLを新しいオフラインゴール条件付きRLアルゴリズムとして拡張する。
WGCSLはGCSLと既存の最先端のオフラインメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2022-02-09T14:17:05Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。