論文の概要: Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.08133v1
- Date: Wed, 17 Aug 2022 08:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:34:52.018385
- Title: Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning
- Title(参考訳): 効率的な目標条件強化学習のためのメトリック残差ネットワーク
- Authors: Bo Liu, Yihao Feng, Qiang Liu, Peter Stone
- Abstract要約: ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
- 参考スコア(独自算出の注目度): 52.59242013527014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned reinforcement learning (GCRL) has a wide range of potential
real-world applications, including manipulation and navigation problems in
robotics. Especially in such robotics task, sample efficiency is of the utmost
importance for GCRL since, by default, the agent is only rewarded when it
reaches its goal. While several methods have been proposed to improve the
sample efficiency of GCRL, one relatively under-studied approach is the design
of neural architectures to support sample efficiency. In this work, we
introduce a novel neural architecture for GCRL that achieves significantly
better sample efficiency than the commonly-used monolithic network
architecture. They key insight is that the optimal action value function Q^*(s,
a, g) must satisfy the triangle inequality in a specific sense. Furthermore, we
introduce the metric residual network (MRN) that deliberately decomposes the
action-value function Q(s,a,g) into the negated summation of a metric plus a
residual asymmetric component. MRN provably approximates any optimal
action-value function Q^*(s,a,g), thus making it a fitting neural architecture
for GCRL. We conduct comprehensive experiments across 12 standard benchmark
environments in GCRL. The empirical results demonstrate that MRN uniformly
outperforms other state-of-the-art GCRL neural architectures in terms of sample
efficiency.
- Abstract(参考訳): ゴール条件強化学習(GCRL)は、ロボット工学における操作やナビゲーションの問題を含む、現実世界の幅広い応用の可能性を秘めている。
特にこのようなロボティクスタスクでは、サンプル効率がgcrlにとって最も重要となるのは、デフォルトでは、エージェントが目標に到達した時にのみ報酬が与えられるためである。
GCRLのサンプル効率を改善するためにいくつかの方法が提案されているが、比較的研究されていないアプローチは、サンプル効率をサポートするニューラルネットワークの設計である。
本研究では,GCRLのニューラルアーキテクチャを導入し,一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
それらの重要な洞察は、最適作用値関数 q^*(s, a, g) は特定の意味で三角不等式を満たす必要があるということである。
さらに、アクション値関数q(s,a,g)を、計量の否定和と残留非対称成分に意図的に分解するメトリック残差ネットワーク(mrn)を導入する。
MRN は任意の最適作用値関数 Q^*(s,a,g) を確実に近似し、GCRL に適合するニューラルネットワークアーキテクチャとなる。
GCRLの標準ベンチマーク環境を網羅した総合的な実験を行った。
実験の結果、MRNはサンプル効率の観点から、他の最先端のGCRLニューラルアーキテクチャより一様に優れていることが示された。
関連論文リスト
- YOSO: You-Only-Sample-Once via Compressed Sensing for Graph Neural Network Training [9.02251811867533]
YOSO(You-Only-Sample-Once)は、予測精度を維持しながら効率的なトレーニングを実現するアルゴリズムである。
YOSOは、正規直交基底計算のような従来の圧縮センシング(CS)法で高価な計算を避けるだけでなく、高い確率精度の保持も保証している。
論文 参考訳(メタデータ) (2024-11-08T16:47:51Z) - Quasimetric Value Functions with Dense Rewards [1.6574413179773761]
準計量的ビズ(三角形の不等式)の鍵となる性質は、密度の高い報酬設定の下で保存されることを示す。
この条件を満たす厳密な報酬関数は、サンプルの複雑さを改善、悪化させることなく改善することができる。
これにより、効率の良いニューラルネットワークを高い報酬でトレーニングする機会が開かれ、そのメリットを複雑さのサンプリングに生かしている。
論文 参考訳(メタデータ) (2024-09-13T11:26:05Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - AIO-P: Expanding Neural Performance Predictors Beyond Image
Classification [22.743278613519152]
アーキテクチャの例でニューラルネットワーク予測器を事前訓練するための新しいオールインワン予測器(AIO-P)を提案する。
AIO-Pは平均絶対誤差(MAE)とスピアマンランク相関(SRCC)をそれぞれ1%以下と0.5以上で達成できる。
論文 参考訳(メタデータ) (2022-11-30T18:30:41Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。