論文の概要: Hypothesis Network Planned Exploration for Rapid Meta-Reinforcement
Learning Adaptation
- arxiv url: http://arxiv.org/abs/2311.03701v1
- Date: Tue, 7 Nov 2023 03:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:03:58.395083
- Title: Hypothesis Network Planned Exploration for Rapid Meta-Reinforcement
Learning Adaptation
- Title(参考訳): 迅速なメタ強化学習適応のための仮説ネットワーク計画探索
- Authors: Maxwell Joseph Jacobson, Yexiang Xue
- Abstract要約: 現在の戦略は、モデル探索の受動的性質により効率が低下している。
HyPEは、仮説ネットワークを介してアクティブで計画された探索プロセスを統合し、適応速度を最適化する。
HyPEは適応速度とモデルの精度でベースライン法を上回る。
- 参考スコア(独自算出の注目度): 12.963163500336066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta Reinforcement Learning (Meta RL) trains agents that adapt to
fast-changing environments and tasks. Current strategies often lose adaption
efficiency due to the passive nature of model exploration, causing delayed
understanding of new transition dynamics. This results in particularly
fast-evolving tasks being impossible to solve. We propose a novel approach,
Hypothesis Network Planned Exploration (HyPE), that integrates an active and
planned exploration process via the hypothesis network to optimize adaptation
speed. HyPE uses a generative hypothesis network to form potential models of
state transition dynamics, then eliminates incorrect models through
strategically devised experiments. Evaluated on a symbolic version of the
Alchemy game, HyPE outpaces baseline methods in adaptation speed and model
accuracy, validating its potential in enhancing reinforcement learning
adaptation in rapidly evolving settings.
- Abstract(参考訳): メタ強化学習(Meta RL)は、急速に変化する環境やタスクに適応するエージェントを訓練する。
現在の戦略は、しばしばモデル探索の受動的性質によって適応効率を失うため、新しい遷移力学の理解が遅れる。
この結果、特に急速に進化するタスクは解決できない。
提案手法は,仮説ネットワークによる探索プロセスを統合し,適応速度を最適化する手法である仮説ネットワーク計画探索(Hypothesis Network Planned Exploration, HyPE)を提案する。
HyPEは生成仮説ネットワークを用いて状態遷移力学のポテンシャルモデルを作成し、戦略的に考案された実験を通じて誤ったモデルを除去する。
Alchemyゲームのシンボリックバージョンで評価され、HyPEは適応速度とモデルの精度においてベースライン法を上回り、急速に進化する環境で強化学習適応を強化する可能性を検証する。
関連論文リスト
- Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - A Simple Yet Effective Strategy to Robustify the Meta Learning Paradigm [16.159983226725565]
本稿では,ある確率レベルで最悪の適応ケースを制御するための2段階戦略を提案する。
実験結果から,本手法はタスク分布に対するメタラーニングの堅牢性を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-01T15:54:45Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Towards Evaluating Adaptivity of Model-Based Reinforcement Learning
Methods [25.05409184943328]
モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。
適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。
適応非線形モデルに基づく手法を構築する際の課題について考察する。
論文 参考訳(メタデータ) (2022-04-25T06:45:16Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - A Discourse on MetODS: Meta-Optimized Dynamical Synapses for
Meta-Reinforcement Learning [9.926231893220063]
本稿ではメタ強化学習のモデルとして,MetODS(Meta-d Dynamical Synapses)を提案する。
我々は,政策空間における強力な制御規則を学習するモデルとして,MetODSの理論的解釈を開発する。
複数の実験や領域において、MetODSは従来のメタ強化学習手法よりも優れているか好適である。
論文 参考訳(メタデータ) (2022-02-04T19:54:10Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。