論文の概要: Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks
- arxiv url: http://arxiv.org/abs/2106.06842v1
- Date: Sat, 12 Jun 2021 19:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:30:33.659887
- Title: Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks
- Title(参考訳): Hypernetworksによる強化学習ビルディングブロックのリコンパイル
- Authors: Shai Keynan, Elad Sarafian and Sarit Kraus
- Abstract要約: 一次ネットワークが条件付き動的ネットワークの重みを決定することを示す。
このアプローチは勾配近似を改善し、学習ステップの分散を低減する。
我々は、RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において、異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
- 参考スコア(独自算出の注目度): 19.523737925041278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Reinforcement Learning (RL) building blocks, i.e. Q-functions and policy
networks, usually take elements from the cartesian product of two domains as
input. In particular, the input of the Q-function is both the state and the
action, and in multi-task problems (Meta-RL) the policy can take a state and a
context. Standard architectures tend to ignore these variables' underlying
interpretations and simply concatenate their features into a single vector. In
this work, we argue that this choice may lead to poor gradient estimation in
actor-critic algorithms and high variance learning steps in Meta-RL algorithms.
To consider the interaction between the input variables, we suggest using a
Hypernetwork architecture where a primary network determines the weights of a
conditional dynamic network. We show that this approach improves the gradient
approximation and reduces the learning step variance, which both accelerates
learning and improves the final performance. We demonstrate a consistent
improvement across different locomotion tasks and different algorithms both in
RL (TD3 and SAC) and in Meta-RL (MAML and PEARL).
- Abstract(参考訳): Reinforcement Learning (RL) ビルディングブロック、すなわち
q-関数とポリシーネットワークは通常、2つのドメインのデカルト積から要素を入力として取り出す。
特に、Q-関数の入力は状態と動作の両方であり、マルチタスク問題(Meta-RL)では、ポリシーは状態とコンテキストを取ることができる。
標準アーキテクチャは、これらの変数の基本的な解釈を無視し、それらの特徴を単一のベクトルにまとめる。
本研究では,この選択が,アクタ-クリティックアルゴリズムの勾配推定やメタrlアルゴリズムの分散学習ステップに悪影響を及ぼす可能性があることを論じる。
入力変数間の相互作用を検討するために,プライマリネットワークが条件付き動的ネットワークの重み付けを決定するハイパーネットワークアーキテクチャを提案する。
このアプローチが勾配近似を改善し,学習ステップ分散を低減し,学習を加速し,最終性能を向上させることを示す。
我々は,RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において,異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Step-size Optimization for Continual Learning [5.834516080130717]
継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。
ニューラルネットワークでは、ステップサイズのベクトルを使用して、サンプルがネットワーク重みを変化させる程度をスケールすることで、これを実装できる。
RMSPropやAdamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するために勾配、特に正規化を使用する。
論文 参考訳(メタデータ) (2024-01-30T19:35:43Z) - VQC-Based Reinforcement Learning with Data Re-uploading: Performance and Trainability [0.8192907805418583]
強化学習(Reinforcement Learning, RL)は、人間の監督なしに知的意思決定を行うエージェントを設計する。
Deep NNを使用するRLアルゴリズムであるDeep Q-Learningは、いくつかの特定のタスクで超人的なパフォーマンスを達成した。
また、RLアルゴリズムの関数近似器として変分量子回路(VQC)を用いることもできる。
論文 参考訳(メタデータ) (2024-01-21T18:00:15Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。