論文の概要: Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning
- arxiv url: http://arxiv.org/abs/2304.01203v7
- Date: Sun, 26 Nov 2023 19:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:27:34.873110
- Title: Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning
- Title(参考訳): 準メトリック学習による最適ゴールリーチ強化学習
- Authors: Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang
- Abstract要約: 準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
- 参考スコア(独自算出の注目度): 73.80728148866906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In goal-reaching reinforcement learning (RL), the optimal value function has
a particular geometry, called quasimetric structure. This paper introduces
Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes
quasimetric models to learn optimal value functions. Distinct from prior
approaches, the QRL objective is specifically designed for quasimetrics, and
provides strong theoretical recovery guarantees. Empirically, we conduct
thorough analyses on a discretized MountainCar environment, identifying
properties of QRL and its advantages over alternatives. On offline and online
goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and
performance, across both state-based and image-based observations.
- Abstract(参考訳): 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。
本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。
従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。
実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。
関連論文リスト
- Goal-Conditioned Offline Reinforcement Learning via Metric Learning [24.224380153671394]
目標条件付きオフライン強化学習の文脈における最適データセットからの最適行動学習の問題に対処する。
本稿では, 目標条件付きオフラインRL問題に対する最適値関数を, 厳密な報酬, 対称性, 決定論的行動の下で近似する方法を提案する。
提案手法は,準最適オフラインデータセットからの学習において,他のオフラインRLベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep
Reinforcement Learning for Combinatorial Optimization [46.88972842049946]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。