論文の概要: Unsupervised Meta-Testing with Conditional Neural Processes for Hybrid Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04399v1
- Date: Wed, 04 Jun 2025 19:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.397797
- Title: Unsupervised Meta-Testing with Conditional Neural Processes for Hybrid Meta-Reinforcement Learning
- Title(参考訳): ハイブリッドメタ強化学習のための条件付きニューラルネットワークによる教師なしメタテスト
- Authors: Suzan Ece Ada, Emre Ugur,
- Abstract要約: Unsupervised Meta-Testing with Conditional Neural Processes (UMCNP) は、メタ強化学習(meta-RL)法である。
本稿では,2D-Point Agentと連続制御メタRLベンチマークのベースラインよりも,メタテスト中のサンプルをはるかに少なくして,未確認のテストタスクに適応できることを実証する。
- 参考スコア(独自算出の注目度): 1.9336815376402723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Unsupervised Meta-Testing with Conditional Neural Processes (UMCNP), a novel hybrid few-shot meta-reinforcement learning (meta-RL) method that uniquely combines, yet distinctly separates, parameterized policy gradient-based (PPG) and task inference-based few-shot meta-RL. Tailored for settings where the reward signal is missing during meta-testing, our method increases sample efficiency without requiring additional samples in meta-training. UMCNP leverages the efficiency and scalability of Conditional Neural Processes (CNPs) to reduce the number of online interactions required in meta-testing. During meta-training, samples previously collected through PPG meta-RL are efficiently reused for learning task inference in an offline manner. UMCNP infers the latent representation of the transition dynamics model from a single test task rollout with unknown parameters. This approach allows us to generate rollouts for self-adaptation by interacting with the learned dynamics model. We demonstrate our method can adapt to an unseen test task using significantly fewer samples during meta-testing than the baselines in 2D-Point Agent and continuous control meta-RL benchmarks, namely, cartpole with unknown angle sensor bias, walker agent with randomized dynamics parameters.
- Abstract(参考訳): 条件付きニューラルネットワークを用いたUnsupervised Meta-Testing with Conditional Neural Processes (UMCNP) を導入する。これは、一意に分離されるが、パラメータ化されたポリシー勾配ベース(PPG)とタスク推論に基づくマルチショットメタRLを結合する、新しいハイブリッド・ショットメタ強化学習(meta-RL)手法である。
メタテスト中に報奨信号が欠落している環境では,メタトレーニングにおいて追加のサンプルを必要とせず,サンプル効率を向上させる。
UMCNPは、条件付きニューラルネットワーク(CNP)の効率性とスケーラビリティを活用し、メタテストに必要なオンラインインタラクションの数を減らす。
メタトレーニング中、PSGメタRLで収集したサンプルはオフラインでタスク推論を学習するために効率的に再利用される。
UMCNPは、未知のパラメータを持つ単一のテストタスクのロールアウトから遷移力学モデルの潜在表現を推論する。
このアプローチにより、学習した動的モデルと対話することで、自己適応のためのロールアウトを生成することができる。
提案手法は,2D-Point Agentと連続制御メタRLベンチマークのベースライン,すなわち未知の角度センサバイアスを持つカートポール,ランダムな動的パラメータを持つウォーカーエージェントよりも,メタテスト中のサンプルをはるかに少なくして,目に見えないテストタスクに適応できることを実証する。
関連論文リスト
- Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Meta-World Conditional Neural Processes [2.627046865670577]
エージェントが自身の「幻覚」からサンプルを採取できるようにするメタワールドコンディショナルニューラルプロセス(MW-CNP)を提案する。
MW-CNPは、メタトレーニング中に記録されたオフラインインタラクションデータに基づいて訓練される。
論文 参考訳(メタデータ) (2023-02-20T21:18:02Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Transfer Bayesian Meta-learning via Weighted Free Energy Minimization [37.51664463278401]
重要な前提は、メタトレーニングタスクとして知られる補助タスクが、デプロイ時に遭遇するタスクと同じ生成分布を共有することである。
本稿では,トランスファーメタラーニングのための重み付き自由エネルギー最小化(WFEM)を提案する。
論文 参考訳(メタデータ) (2021-06-20T15:17:51Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。