論文の概要: Context Meta-Reinforcement Learning via Neuromodulation
- arxiv url: http://arxiv.org/abs/2111.00134v1
- Date: Sat, 30 Oct 2021 01:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:28:47.626048
- Title: Context Meta-Reinforcement Learning via Neuromodulation
- Title(参考訳): ニューロモジュレーションによるコンテキストメタ強化学習
- Authors: Eseoghene Ben-Iwhiwhu, Jeffery Dick, Nicholas A. Ketz, Praveen K.
Pilly, Andrea Soltoggio
- Abstract要約: メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは動的環境の少数のサンプルからタスクに迅速に適応できる。
本稿では、神経活動を制御する標準ポリシーネットワークを強化するためのモジュラーコンポーネントとして神経変調を導入する。
- 参考スコア(独自算出の注目度): 6.142272540492935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning (meta-RL) algorithms enable agents to adapt
quickly to tasks from few samples in dynamic environments. Such a feat is
achieved through dynamic representations in an agent's policy network (obtained
via reasoning about task context, model parameter updates, or both). However,
obtaining rich dynamic representations for fast adaptation beyond simple
benchmark problems is challenging due to the burden placed on the policy
network to accommodate different policies. This paper addresses the challenge
by introducing neuromodulation as a modular component to augment a standard
policy network that regulates neuronal activities in order to produce efficient
dynamic representations for task adaptation. The proposed extension to the
policy network is evaluated across multiple discrete and continuous control
environments of increasing complexity. To prove the generality and benefits of
the extension in meta-RL, the neuromodulated network was applied to two
state-of-the-art meta-RL algorithms (CAVIA and PEARL). The result demonstrates
that meta-RL augmented with neuromodulation produces significantly better
result and richer dynamic representations in comparison to the baselines.
- Abstract(参考訳): メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは動的環境の少数のサンプルからタスクに迅速に適応できる。
このような処理は,エージェントのポリシネットワーク内の動的表現(タスクコンテキストの推論やモデルパラメータの更新,あるいはその両方を通じて)によって実現される。
しかし、ポリシーネットワークが異なるポリシーに適合するため、単純なベンチマーク問題を超えた高速適応のためのリッチな動的表現を得ることは困難である。
本稿では、タスク適応のための効率的な動的表現を生成するために、神経活動を制御する標準ポリシーネットワークを強化するためのモジュラーコンポーネントとして神経変調を導入することによる課題に対処する。
提案するポリシネットワークの拡張は,複雑化する複数の離散制御環境および連続制御環境において評価される。
メタRLの拡張の一般化と利点を証明するため、ニューロ変調ネットワークを2つの最先端メタRLアルゴリズム(CAVIAとPEARL)に適用した。
その結果, 神経調節によるメタRLの増強は, ベースラインに比べて有意に良好で, 動的表現がよりリッチであることが示された。
関連論文リスト
- Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Self Expanding Convolutional Neural Networks [1.4330085996657045]
本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。
我々は、単一のモデルを動的に拡張する戦略を採用し、様々な複雑さのレベルでチェックポイントの抽出を容易にする。
論文 参考訳(メタデータ) (2024-01-11T06:22:40Z) - Multi-Agent Reinforcement Learning for Power Control in Wireless
Networks via Adaptive Graphs [1.1861167902268832]
多エージェント深部強化学習(MADRL)は、電力制御のような幅広い複雑な最適化問題に対処するための有望な手法として登場した。
本稿では,これらの課題を緩和する有効な手段として,分散エージェント間の通信誘導構造としてグラフを用いることを提案する。
論文 参考訳(メタデータ) (2023-11-27T14:25:40Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。