論文の概要: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations
- arxiv url: http://arxiv.org/abs/2407.08464v2
- Date: Mon, 09 Dec 2024 08:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:40.716470
- Title: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations
- Title(参考訳): TLDR: 時間的距離認識による非教師付きゴールコンディションRL
- Authors: Junik Bae, Kwanyoung Park, Youngwoon Lee,
- Abstract要約: 教師なしの目標条件強化学習は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。
本研究では,TemporaL Distance-Aware Representations(TLDR)を利用した新しい教師なしGCRL法を提案する。
TLDRは探索を開始するために遠くの目標を選択し、本質的な探索報酬と目標獲得報酬を計算します。
- 参考スコア(独自算出の注目度): 5.646278962567641
- License:
- Abstract: Unsupervised goal-conditioned reinforcement learning (GCRL) is a promising paradigm for developing diverse robotic skills without external supervision. However, existing unsupervised GCRL methods often struggle to cover a wide range of states in complex environments due to their limited exploration and sparse or noisy rewards for GCRL. To overcome these challenges, we propose a novel unsupervised GCRL method that leverages TemporaL Distance-aware Representations (TLDR). Based on temporal distance, TLDR selects faraway goals to initiate exploration and computes intrinsic exploration rewards and goal-reaching rewards. Specifically, our exploration policy seeks states with large temporal distances (i.e. covering a large state space), while the goal-conditioned policy learns to minimize the temporal distance to the goal (i.e. reaching the goal). Our results in six simulated locomotion environments demonstrate that TLDR significantly outperforms prior unsupervised GCRL methods in achieving a wide range of states.
- Abstract(参考訳): 非教師なし目標条件強化学習(GCRL)は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。
しかし、既存の非教師なしのGCRL法は、GCRLの限られた探索やノイズの多い報酬のために、複雑な環境における幅広い状態をカバーするのに苦労することが多い。
これらの課題を克服するために,TemporaL Distance-Aware Representations (TLDR) を利用した新しい教師なしGCRL法を提案する。
TLDRは時間的距離に基づいて探索を開始するための遠方目標を選択し、本質的な探索報酬と目標獲得報酬を計算する。
具体的には、我々の探索政策は、大きな時間的距離(すなわち、大きな状態空間をカバーする)を持つ状態を求め、一方ゴール条件付き政策は、目標への時間的距離(すなわち、ゴールに到達すること)を最小化するために学習する。
シミュレーションした6つの移動環境において,TLDRは制御不能なGCRL法よりも有意に優れており,幅広い状態が達成されている。
関連論文リスト
- Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning [6.266160051617362]
クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。
挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
論文 参考訳(メタデータ) (2024-11-03T01:21:43Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - Remote Sensing Object Detection Meets Deep Learning: A Meta-review of
Challenges and Advances [51.70835702029498]
本稿では,ディープラーニングに基づくRSOD手法の最近の成果を概観する。
RSODの主な課題として,マルチスケールオブジェクト検出,回転オブジェクト検出,弱いオブジェクト検出,小さなオブジェクト検出,限られた監視を伴うオブジェクト検出の5つを挙げる。
また、RSODの分野で広く使用されているベンチマークデータセットと評価指標、およびRSODのアプリケーションシナリオについてもレビューする。
論文 参考訳(メタデータ) (2023-09-13T06:48:32Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based
RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。
アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文 参考訳(メタデータ) (2021-03-24T15:33:03Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。