論文の概要: Reusable Options through Gradient-based Meta Learning
- arxiv url: http://arxiv.org/abs/2212.11726v2
- Date: Tue, 4 Apr 2023 10:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 18:19:26.707249
- Title: Reusable Options through Gradient-based Meta Learning
- Title(参考訳): 勾配に基づくメタ学習による再利用可能な選択肢
- Authors: David Kuric, Herke van Hoof
- Abstract要約: エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 24.59017394648942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical methods in reinforcement learning have the potential to reduce
the amount of decisions that the agent needs to perform when learning new
tasks. However, finding reusable useful temporal abstractions that facilitate
fast learning remains a challenging problem. Recently, several deep learning
approaches were proposed to learn such temporal abstractions in the form of
options in an end-to-end manner. In this work, we point out several
shortcomings of these methods and discuss their potential negative
consequences. Subsequently, we formulate the desiderata for reusable options
and use these to frame the problem of learning options as a gradient-based
meta-learning problem. This allows us to formulate an objective that explicitly
incentivizes options which allow a higher-level decision maker to adjust in few
steps to different tasks. Experimentally, we show that our method is able to
learn transferable components which accelerate learning and performs better
than existing prior methods developed for this setting. Additionally, we
perform ablations to quantify the impact of using gradient-based meta-learning
as well as other proposed changes.
- Abstract(参考訳): 強化学習における階層的手法は、新しいタスクを学ぶ際にエージェントが行うべき決定の量を減らす可能性がある。
しかし、高速学習を容易にする再利用可能な時間的抽象化を見つけることは難しい問題である。
近年,このような時間的抽象化をエンド・ツー・エンドの形で学習するための深層学習手法が提案されている。
本稿では,これらの手法の欠点を指摘し,その潜在的な負の結果について考察する。
次に,再利用可能な選択肢についてデシデラタを定式化し,これを用いて,学習オプションの問題を勾配に基づくメタラーニング問題として構成する。
これにより、選択を明示的にインセンティブ化する目的を定式化し、より高いレベルの意思決定者がいくつかのステップで異なるタスクを調整できるようにします。
実験により,本手法は学習を加速し,従来の手法よりも優れた性能を発揮する移動可能なコンポーネントを学習できることを示した。
さらに、勾配に基づくメタラーニングおよび他の提案された変化を用いた影響の定量化を行う。
関連論文リスト
- Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Flexible Option Learning [69.78645585943592]
我々は、深層強化学習の文脈において、オプション内学習を再考し、拡張する。
我々は,多種多様な領域における性能とデータ効率の大幅な向上を得た。
論文 参考訳(メタデータ) (2021-12-06T15:07:48Z) - Derivative-Free Reinforcement Learning: A Review [11.568151821073952]
強化学習とは、未知の環境で最高のシーケンシャルな決定を行うエージェントモデルを学習することである。
一方、微分自由最適化は洗練された問題を解くことができる。
本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を概説する。
論文 参考訳(メタデータ) (2021-02-10T19:29:22Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Learning Diverse Options via InfoMax Termination Critic [0.0]
我々は、強化学習において、再利用可能な時間的拡張行動や選択肢を自律的に学習する問題を考察する。
近年の相互情報に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
オプションと対応する状態遷移の間のMIを最大化することにより、オプションの勾配を学習する方法を提案する。
論文 参考訳(メタデータ) (2020-10-06T14:21:05Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z) - Meta Cyclical Annealing Schedule: A Simple Approach to Avoiding
Meta-Amortization Error [50.83356836818667]
循環型アニーリングスケジュールとMMD基準を用いた新しいメタレギュラー化目標を構築した。
実験の結果,本手法は標準的なメタ学習アルゴリズムよりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-04T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。