論文の概要: Can Learned Optimization Make Reinforcement Learning Less Difficult?
- arxiv url: http://arxiv.org/abs/2407.07082v2
- Date: Mon, 25 Nov 2024 15:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:42.751508
- Title: Can Learned Optimization Make Reinforcement Learning Less Difficult?
- Title(参考訳): 学習最適化は強化学習を困難にさせるか?
- Authors: Alexander David Goldie, Chris Lu, Matthew Thomas Jackson, Shimon Whiteson, Jakob Nicolaus Foerster,
- Abstract要約: 学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
- 参考スコア(独自算出の注目度): 70.5036361852812
- License:
- Abstract: While reinforcement learning (RL) holds great potential for decision making in the real world, it suffers from a number of unique difficulties which often need specific consideration. In particular: it is highly non-stationary; suffers from high degrees of plasticity loss; and requires exploration to prevent premature convergence to local optima and maximize return. In this paper, we consider whether learned optimization can help overcome these problems. Our method, Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN), meta-learns an update rule whose input features and output structure are informed by previously proposed solutions to these difficulties. We show that our parameterization is flexible enough to enable meta-learning in diverse learning contexts, including the ability to use stochasticity for exploration. Our experiments demonstrate that when meta-trained on single and small sets of environments, OPEN outperforms or equals traditionally used optimizers. Furthermore, OPEN shows strong generalization characteristics across a range of environments and agent architectures.
- Abstract(参考訳): 強化学習(RL)は実世界において意思決定の大きな可能性を持っているが、特定の考慮を必要とする多くの固有の困難に悩まされている。
特に、非定常性が高く、可塑性損失の度合いが高いため、局所最適の早期収束を防ぎ、帰還を最大化するためには探索が必要である。
本稿では,これらの課題を克服する上で,学習した最適化が有効かどうかを検討する。
提案手法は, これまでに提案した手法により, 入力特性と出力構造が通知される更新ルールをメタラーニングする。
パラメータ化は多様な学習文脈におけるメタラーニングを可能にするのに十分柔軟であり、探索に確率性を利用する能力を含むことを示す。
実験の結果,単一環境と小環境のメタトレーニングを行う場合,OPENは従来の最適化器よりも優れているか,あるいは同等であることがわかった。
さらに、OPENは様々な環境やエージェントアーキテクチャにまたがる強力な一般化特性を示す。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learning Algorithms for Intelligent Agents and Mechanisms [4.251500966181852]
本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。
第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。
第3章では、ベイズ的視点を用いてRLの一般化問題に取り組み、環境の不完全な知識が完全に観測されたマルコフ決定過程(MDP)を部分的に観測されたMDP(POMD)に変換することを効果的に示している。
論文 参考訳(メタデータ) (2022-10-06T03:12:43Z) - Meta Mirror Descent: Optimiser Learning for Fast Convergence [85.98034682899855]
我々は、勾配降下ではなくミラー降下から始まり、対応するブレグマン発散をメタラーニングする。
このパラダイム内では、後悔の限界を最小化するための新しいメタ学習目標を定式化する。
多くのメタ学習オプティマイザとは異なり、収束と一般化の保証もサポートしており、検証データを必要としない。
論文 参考訳(メタデータ) (2022-03-05T11:41:13Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Learn2Hop: Learned Optimization on Rough Landscapes [19.30760260383794]
種々の損失構成に対する最適化アルゴリズムを学習することにより,メタラーニングの展開を多くのミニマ問題に適用することを提案する。
我々の学習は、要素や構成に先立って効率が向上する有望な一般化を示すことを示す。
論文 参考訳(メタデータ) (2021-07-20T17:57:19Z) - Recursive Experts: An Efficient Optimal Mixture of Learning Systems in
Dynamic Environments [0.0]
逐次学習システムは、意思決定から最適化まで、幅広い問題で使われている。
目的は、自然のフィードバック(状態)に固有の時間的関係を利用して目標に達することである。
本稿では,一般的な逐次学習システムのための最適混合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-19T15:02:27Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。