論文の概要: Hypernetworks for Zero-shot Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.15457v1
- Date: Mon, 28 Nov 2022 15:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:52:54.783183
- Title: Hypernetworks for Zero-shot Transfer in Reinforcement Learning
- Title(参考訳): 強化学習におけるゼロショット転送のためのハイパーネットワーク
- Authors: Sahand Rezaei-Shoshtari, Charlotte Morissette, Francois Robert Hogan,
Gregory Dudek, David Meger
- Abstract要約: Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
- 参考スコア(独自算出の注目度): 21.994654567458017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, hypernetworks are trained to generate behaviors across a range
of unseen task conditions, via a novel TD-based training objective and data
from a set of near-optimal RL solutions for training tasks. This work relates
to meta RL, contextual RL, and transfer learning, with a particular focus on
zero-shot performance at test time, enabled by knowledge of the task parameters
(also known as context). Our technical approach is based upon viewing each RL
algorithm as a mapping from the MDP specifics to the near-optimal value
function and policy and seek to approximate it with a hypernetwork that can
generate near-optimal value functions and policies, given the parameters of the
MDP. We show that, under certain conditions, this mapping can be considered as
a supervised learning problem. We empirically evaluate the effectiveness of our
method for zero-shot transfer to new reward and transition dynamics on a series
of continuous control tasks from DeepMind Control Suite. Our method
demonstrates significant improvements over baselines from multitask and meta RL
approaches.
- Abstract(参考訳): 本稿では,新しいTDベースのトレーニング目標と準最適RLソリューションの集合から得られたデータを用いて,未知のタスク条件にまたがる行動を生成するために,ハイパーネットワークを訓練する。
この作業は、メタRL、コンテキストRL、トランスファーラーニングに関連するもので、特にテスト時のゼロショットパフォーマンスに焦点を当てており、タスクパラメータ(コンテキストとしても知られる)の知識によって実現されている。
我々の技術的アプローチは、各RLアルゴリズムをMDP仕様から準最適値関数とポリシーへのマッピングとして捉え、MDPのパラメータを考慮し、準最適値関数とポリシーを生成できるハイパーネットワークで近似することに基づいている。
特定の条件下では、このマッピングを教師付き学習問題とみなすことができる。
我々は,DeepMind Control Suiteの一連の連続制御タスクにおいて,新たな報酬と遷移ダイナミクスへのゼロショット転送の有効性を実証的に評価した。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Offline Multi-task Transfer RL with Representational Penalization [26.114893629771736]
オフライン強化学習(RL)における表現伝達の問題について検討する。
本稿では,学習者表現に対する不確実性度を計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T21:52:44Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach [21.44737454610142]
メタ強化学習(メタRL)では、エージェントは、同じタスク分布から引き出された新しいタスクの迅速な解決方法のセットから学習する。
この研究で検討する質問は、高い確率で最適な行動を保証するために、どの程度のトレーニングタスクが必要かということだ。
本研究では,タスク分布を直接学習し,密度推定手法を用いて,学習したタスク分布に関するポリシーを訓練するアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:32:19Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。