Fugu-MT 論文翻訳(概要): TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations

論文の概要: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations

arxiv url: http://arxiv.org/abs/2407.08464v1
Date: Thu, 11 Jul 2024 13:01:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 17:29:40.208992
Title: TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations
Title（参考訳）: TLDR: 時間的距離認識による非教師付きゴールコンディションRL
Authors: Junik Bae, Kwanyoung Park, Youngwoon Lee,
Abstract要約: 教師なしの目標条件強化学習は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。本研究では,TemporaL Distance-Aware Representations(TLDR)を利用した新しい教師なしGCRL法を提案する。 TLDRは、探索を開始するために遠くの目標を選択し、時間的距離に基づいて固有の探索報酬と目標獲得報酬を計算する。
参考スコア（独自算出の注目度）: 5.646278962567641
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unsupervised goal-conditioned reinforcement learning (GCRL) is a promising paradigm for developing diverse robotic skills without external supervision. However, existing unsupervised GCRL methods often struggle to cover a wide range of states in complex environments due to their limited exploration and sparse or noisy rewards for GCRL. To overcome these challenges, we propose a novel unsupervised GCRL method that leverages TemporaL Distance-aware Representations (TLDR). TLDR selects faraway goals to initiate exploration and computes intrinsic exploration rewards and goal-reaching rewards, based on temporal distance. Specifically, our exploration policy seeks states with large temporal distances (i.e. covering a large state space), while the goal-conditioned policy learns to minimize the temporal distance to the goal (i.e. reaching the goal). Our experimental results in six simulated robotic locomotion environments demonstrate that our method significantly outperforms previous unsupervised GCRL methods in achieving a wide variety of states.
Abstract（参考訳）: 非教師なし目標条件強化学習(GCRL)は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。しかし、既存の非教師なしのGCRL法は、GCRLの限られた探索やノイズの多い報酬のために、複雑な環境における幅広い状態をカバーするのに苦労することが多い。これらの課題を克服するために,TemporaL Distance-Aware Representations (TLDR) を利用した新しい教師なしGCRL法を提案する。 TLDRは、探索を開始するために遠くの目標を選択し、時間的距離に基づいて固有の探索報酬と目標獲得報酬を計算する。具体的には、我々の探索政策は、大きな時間的距離(すなわち、大きな状態空間をカバーする)を持つ状態を求め、一方ゴール条件付き政策は、目標への時間的距離(すなわち、ゴールに到達すること)を最小化するために学習する。 6つのロボット・ロコモーション環境における実験結果から,従来の教師なしGCRL法よりもはるかに優れており,多種多様な状態が得られることが示された。

関連論文リスト

Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文参考訳（メタデータ） (2025-06-10T12:40:39Z)
Flattening Hierarchies with Policy Bootstrapping [2.3940819037450987]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文参考訳（メタデータ） (2025-05-20T23:31:30Z)
Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning [6.266160051617362]
クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
論文参考訳（メタデータ） (2024-11-03T01:21:43Z)
FH-DRL: Exponential-Hyperbolic Frontier Heuristics with DRL for accelerated Exploration in Unknown Environments [1.8749305679160366]
本稿では、FH-DRLという、フロンティア検出のためのカスタマイズ可能な機能と、連続的かつ高速なローカルナビゲーションのためのTwin Delayed DDPG(TD3)エージェントを統合する新しいフレームワークを紹介する。 FH-DRLを複数のシミュレーションおよび実世界のシナリオで徹底的に評価し,旅行距離と完了時間の明確な改善を実証した。その結果、FH-DRLは、大規模または部分的に知られている環境におけるフロンティアベースの探索の効率的で一般的なアプローチであることがわかった。
論文参考訳（メタデータ） (2024-07-26T17:42:18Z)
METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文参考訳（メタデータ） (2023-10-13T06:43:11Z)
Remote Sensing Object Detection Meets Deep Learning: A Meta-review of Challenges and Advances [51.70835702029498]
本稿では,ディープラーニングに基づくRSOD手法の最近の成果を概観する。 RSODの主な課題として,マルチスケールオブジェクト検出,回転オブジェクト検出,弱いオブジェクト検出,小さなオブジェクト検出,限られた監視を伴うオブジェクト検出の5つを挙げる。また、RSODの分野で広く使用されているベンチマークデータセットと評価指標、およびRSODのアプリケーションシナリオについてもレビューする。
論文参考訳（メタデータ） (2023-09-13T06:48:32Z)
HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。この階層的な分解によって、推定値関数のノイズに頑健になることを示す。提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文参考訳（メタデータ） (2023-07-22T00:17:36Z)
Goal-Conditioned Reinforcement Learning with Disentanglement-based Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-07-20T13:08:14Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。 GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文参考訳（メタデータ） (2022-10-28T11:11:04Z)
Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。 SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文参考訳（メタデータ） (2021-11-18T18:36:05Z)
Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。 HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文参考訳（メタデータ） (2021-10-26T12:16:19Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based RL [4.014524824655106]
腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。アームの軌道生成は、ロボットの体を動かすための衝突のない経路を見つけることを含む基本的なロボティクス問題です。
論文参考訳（メタデータ） (2021-03-24T15:33:03Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。