論文の概要: Meta-Reinforcement Learning Using Model Parameters
- arxiv url: http://arxiv.org/abs/2210.15515v1
- Date: Thu, 27 Oct 2022 14:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:57:07.804309
- Title: Meta-Reinforcement Learning Using Model Parameters
- Title(参考訳): モデルパラメータを用いたメタ強化学習
- Authors: Gabriel Hartmann and Amos Azaria
- Abstract要約: 本稿では,モデルパラメータを用いた強化学習エージェントRAMPを提案する。
RAMPは2つのフェーズで構築される。第1フェーズでは、マルチ環境パラメータ化動的モデルが学習される。
第2フェーズでは、モデルフリー強化学習エージェントのマルチ環境ポリシーのコンテキストとして、動的モデルのモデルパラメータが使用される。
- 参考スコア(独自算出の注目度): 8.442084903594528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In meta-reinforcement learning, an agent is trained in multiple different
environments and attempts to learn a meta-policy that can efficiently adapt to
a new environment. This paper presents RAMP, a Reinforcement learning Agent
using Model Parameters that utilizes the idea that a neural network trained to
predict environment dynamics encapsulates the environment information. RAMP is
constructed in two phases: in the first phase, a multi-environment
parameterized dynamic model is learned. In the second phase, the model
parameters of the dynamic model are used as context for the multi-environment
policy of the model-free reinforcement learning agent.
- Abstract(参考訳): メタ強化学習では、エージェントは複数の異なる環境で訓練され、新しい環境に効率的に適応できるメタポリシーを学習しようとする。
本稿では,環境ダイナミクスを予測するニューラルネットワークが環境情報をカプセル化するという考えを活かしたモデルパラメータを用いた強化学習エージェントであるsmpを提案する。
RAMPは2つのフェーズで構築される。第1フェーズでは、マルチ環境パラメータ化動的モデルが学習される。
第2フェーズでは、モデルフリー強化学習エージェントのマルチ環境ポリシーのコンテキストとして、動的モデルのモデルパラメータが使用される。
関連論文リスト
- Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
動的適応を誘導するクラス感受性選択的スキャン機構を開発した。
miniImageNet, CUB-200, CIFAR-100 の実験により,我々のフレームワークは既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Transfer Learning for CSI-based Positioning with Multi-environment Meta-learning [1.1763850077553188]
チャネル状態情報(CSI)指紋によるユーザ機器(UE)の無線位置決めのための深層学習(DL)技術は大きな可能性を示唆している。
本稿では,2つの部分からなる新しいDLモデル構造を提案する。第1部は特定の環境から独立な特徴を特定することを目的としており,第2部は環境特異的な特徴と位置決めの目的を組み合わせている。
その結果,新しい未確認環境におけるDLモデルの重み付けを初期化するためのMEML手法を用いることで,新たなターゲット環境におけるUE位置決めの精度が向上し,不確実性評価の信頼性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-20T06:23:22Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z) - Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL [39.58890668062184]
ロールアウト長をメタレベルのシーケンシャルな意思決定問題としてチューニングする問題について検討する。
メタレベル決定問題の解決にはモデルフリーの深層強化学習を用いる。
論文 参考訳(メタデータ) (2022-06-06T06:25:11Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference [11.076005074172516]
長期にわたる強化学習エージェントは、環境の変化に応じて、その振る舞いを漸進的に適応させることである。
動的環境への効率的な生涯適応のための新しいインクリメンタルアルゴリズムであるLifeLong Reinforcement Learning (LLIRL)を提案する。
論文 参考訳(メタデータ) (2020-07-28T13:23:41Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。