論文の概要: A Discourse on MetODS: Meta-Optimized Dynamical Synapses for
Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.02363v1
- Date: Fri, 4 Feb 2022 19:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-13 20:24:19.396582
- Title: A Discourse on MetODS: Meta-Optimized Dynamical Synapses for
Meta-Reinforcement Learning
- Title(参考訳): MetODSに関する談話:メタ強化学習のためのメタ最適化動的シナプス
- Authors: Mathieu Chalvidal, Thomas Serre, Rufin VanRullen
- Abstract要約: 本稿ではメタ強化学習のモデルとして,MetODS(Meta-d Dynamical Synapses)を提案する。
我々は,政策空間における強力な制御規則を学習するモデルとして,MetODSの理論的解釈を開発する。
複数の実験や領域において、MetODSは従来のメタ強化学習手法よりも優れているか好適である。
- 参考スコア(独自算出の注目度): 9.926231893220063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent meta-reinforcement learning work has emphasized the importance of
mnemonic control for agents to quickly assimilate relevant experience in new
contexts and suitably adapt their policy. However, what computational
mechanisms support flexible behavioral adaptation from past experience remains
an open question. Inspired by neuroscience, we propose MetODS (for
Meta-Optimized Dynamical Synapses), a broadly applicable model of
meta-reinforcement learning which leverages fast synaptic dynamics influenced
by action-reward feedback. We develop a theoretical interpretation of MetODS as
a model learning powerful control rules in the policy space and demonstrate
empirically that robust reinforcement learning programs emerge spontaneously
from them. We further propose a formalism which efficiently optimizes the
meta-parameters governing MetODS synaptic processes. In multiple experiments
and domains, MetODS outperforms or compares favorably with previous
meta-reinforcement learning approaches. Our agents can perform one-shot
learning, approaches optimal exploration/exploitation strategies, generalize
navigation principles to unseen environments and demonstrate a strong ability
to learn adaptive motor policies.
- Abstract(参考訳): 近年のメタ強化学習研究は、新しい文脈における関連する経験を素早く同化し、その政策を適宜適応するために、エージェントに対するmnemonic controlの重要性を強調している。
しかし、過去の経験からフレキシブルな行動適応を支援する計算メカニズムは未解決のままである。
本研究では,脳科学に着想を得たメタ最適化動的シナプスモデルであるmetods(meta-optimized dynamical synapses)を提案する。
本研究では,政策空間における強力な制御ルールを学習するモデルとして,メトドスの理論的解釈を開発し,強固な強化学習プログラムが自発的に出現することを示す。
さらに,MetODS合成プロセスを管理するメタパラメータを効率的に最適化するフォーマリズムを提案する。
複数の実験や領域において、MetODSは従来のメタ強化学習手法よりも優れているか好適である。
エージェントはワンショット学習を行い、最適な探索・探索戦略にアプローチし、ナビゲーション原則を目に見えない環境に一般化し、適応的なモーターポリシーを学習する強力な能力を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Context Meta-Reinforcement Learning via Neuromodulation [6.142272540492935]
メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは動的環境の少数のサンプルからタスクに迅速に適応できる。
本稿では、神経活動を制御する標準ポリシーネットワークを強化するためのモジュラーコンポーネントとして神経変調を導入する。
論文 参考訳(メタデータ) (2021-10-30T01:05:40Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。