論文の概要: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations
- arxiv url: http://arxiv.org/abs/2407.08464v1
- Date: Thu, 11 Jul 2024 13:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:29:40.208992
- Title: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations
- Title(参考訳): TLDR: 時間的距離認識による非教師付きゴールコンディションRL
- Authors: Junik Bae, Kwanyoung Park, Youngwoon Lee,
- Abstract要約: 教師なしの目標条件強化学習は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。
本研究では,TemporaL Distance-Aware Representations(TLDR)を利用した新しい教師なしGCRL法を提案する。
TLDRは、探索を開始するために遠くの目標を選択し、時間的距離に基づいて固有の探索報酬と目標獲得報酬を計算する。
- 参考スコア(独自算出の注目度): 5.646278962567641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised goal-conditioned reinforcement learning (GCRL) is a promising paradigm for developing diverse robotic skills without external supervision. However, existing unsupervised GCRL methods often struggle to cover a wide range of states in complex environments due to their limited exploration and sparse or noisy rewards for GCRL. To overcome these challenges, we propose a novel unsupervised GCRL method that leverages TemporaL Distance-aware Representations (TLDR). TLDR selects faraway goals to initiate exploration and computes intrinsic exploration rewards and goal-reaching rewards, based on temporal distance. Specifically, our exploration policy seeks states with large temporal distances (i.e. covering a large state space), while the goal-conditioned policy learns to minimize the temporal distance to the goal (i.e. reaching the goal). Our experimental results in six simulated robotic locomotion environments demonstrate that our method significantly outperforms previous unsupervised GCRL methods in achieving a wide variety of states.
- Abstract(参考訳): 非教師なし目標条件強化学習(GCRL)は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。
しかし、既存の非教師なしのGCRL法は、GCRLの限られた探索やノイズの多い報酬のために、複雑な環境における幅広い状態をカバーするのに苦労することが多い。
これらの課題を克服するために,TemporaL Distance-Aware Representations (TLDR) を利用した新しい教師なしGCRL法を提案する。
TLDRは、探索を開始するために遠くの目標を選択し、時間的距離に基づいて固有の探索報酬と目標獲得報酬を計算する。
具体的には、我々の探索政策は、大きな時間的距離(すなわち、大きな状態空間をカバーする)を持つ状態を求め、一方ゴール条件付き政策は、目標への時間的距離(すなわち、ゴールに到達すること)を最小化するために学習する。
6つのロボット・ロコモーション環境における実験結果から,従来の教師なしGCRL法よりもはるかに優れており,多種多様な状態が得られることが示された。
関連論文リスト
- FH-DRL: Exponential-Hyperbolic Frontier Heuristics with DRL for accelerated Exploration in Unknown Environments [1.8749305679160366]
本稿では、FH-DRLという、フロンティア検出のためのカスタマイズ可能な機能と、連続的かつ高速なローカルナビゲーションのためのTwin Delayed DDPG(TD3)エージェントを統合する新しいフレームワークを紹介する。
FH-DRLを複数のシミュレーションおよび実世界のシナリオで徹底的に評価し,旅行距離と完了時間の明確な改善を実証した。
その結果、FH-DRLは、大規模または部分的に知られている環境におけるフロンティアベースの探索の効率的で一般的なアプローチであることがわかった。
論文 参考訳(メタデータ) (2024-07-26T17:42:18Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based
RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。
アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文 参考訳(メタデータ) (2021-03-24T15:33:03Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。