論文の概要: Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.08133v1
- Date: Wed, 17 Aug 2022 08:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:34:52.018385
- Title: Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning
- Title(参考訳): 効率的な目標条件強化学習のためのメトリック残差ネットワーク
- Authors: Bo Liu, Yihao Feng, Qiang Liu, Peter Stone
- Abstract要約: ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
- 参考スコア(独自算出の注目度): 52.59242013527014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned reinforcement learning (GCRL) has a wide range of potential
real-world applications, including manipulation and navigation problems in
robotics. Especially in such robotics task, sample efficiency is of the utmost
importance for GCRL since, by default, the agent is only rewarded when it
reaches its goal. While several methods have been proposed to improve the
sample efficiency of GCRL, one relatively under-studied approach is the design
of neural architectures to support sample efficiency. In this work, we
introduce a novel neural architecture for GCRL that achieves significantly
better sample efficiency than the commonly-used monolithic network
architecture. They key insight is that the optimal action value function Q^*(s,
a, g) must satisfy the triangle inequality in a specific sense. Furthermore, we
introduce the metric residual network (MRN) that deliberately decomposes the
action-value function Q(s,a,g) into the negated summation of a metric plus a
residual asymmetric component. MRN provably approximates any optimal
action-value function Q^*(s,a,g), thus making it a fitting neural architecture
for GCRL. We conduct comprehensive experiments across 12 standard benchmark
environments in GCRL. The empirical results demonstrate that MRN uniformly
outperforms other state-of-the-art GCRL neural architectures in terms of sample
efficiency.
- Abstract(参考訳): ゴール条件強化学習(GCRL)は、ロボット工学における操作やナビゲーションの問題を含む、現実世界の幅広い応用の可能性を秘めている。
特にこのようなロボティクスタスクでは、サンプル効率がgcrlにとって最も重要となるのは、デフォルトでは、エージェントが目標に到達した時にのみ報酬が与えられるためである。
GCRLのサンプル効率を改善するためにいくつかの方法が提案されているが、比較的研究されていないアプローチは、サンプル効率をサポートするニューラルネットワークの設計である。
本研究では,GCRLのニューラルアーキテクチャを導入し,一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
それらの重要な洞察は、最適作用値関数 q^*(s, a, g) は特定の意味で三角不等式を満たす必要があるということである。
さらに、アクション値関数q(s,a,g)を、計量の否定和と残留非対称成分に意図的に分解するメトリック残差ネットワーク(mrn)を導入する。
MRN は任意の最適作用値関数 Q^*(s,a,g) を確実に近似し、GCRL に適合するニューラルネットワークアーキテクチャとなる。
GCRLの標準ベンチマーク環境を網羅した総合的な実験を行った。
実験の結果、MRNはサンプル効率の観点から、他の最先端のGCRLニューラルアーキテクチャより一様に優れていることが示された。
関連論文リスト
- Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - AIO-P: Expanding Neural Performance Predictors Beyond Image
Classification [22.743278613519152]
アーキテクチャの例でニューラルネットワーク予測器を事前訓練するための新しいオールインワン予測器(AIO-P)を提案する。
AIO-Pは平均絶対誤差(MAE)とスピアマンランク相関(SRCC)をそれぞれ1%以下と0.5以上で達成できる。
論文 参考訳(メタデータ) (2022-11-30T18:30:41Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - A Novel Genetic Algorithm with Hierarchical Evaluation Strategy for
Hyperparameter Optimisation of Graph Neural Networks [7.139436410105177]
本研究は階層的評価戦略(HESGA)を用いた新しい遺伝的アルゴリズムを提案する。
提案された階層的戦略は、候補者をより高いレベルに推薦するために低いレベルでの迅速な評価を用いており、完全評価はエリート個人のグループを維持するための最終評価者として振る舞う。
論文 参考訳(メタデータ) (2021-01-22T19:19:59Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。