論文の概要: Using Memory-Based Learning to Solve Tasks with State-Action Constraints
- arxiv url: http://arxiv.org/abs/2303.04327v1
- Date: Wed, 8 Mar 2023 02:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:28:15.072263
- Title: Using Memory-Based Learning to Solve Tasks with State-Action Constraints
- Title(参考訳): メモリベース学習を用いた状態制約のあるタスクの解法
- Authors: Mrinal Verghese and Chris Atkeson
- Abstract要約: 本稿では,これらのタスクにおける制約のシンボリックな性質と時間的順序を活かしたメモリベースの学習手法を提案する。
本稿では,これらの課題をモデルベースおよびモデルフリーの深層強化学習法よりも桁違いに高速に解く方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks where the set of possible actions depend discontinuously on the state
pose a significant challenge for current reinforcement learning algorithms. For
example, a locked door must be first unlocked, and then the handle turned
before the door can be opened. The sequential nature of these tasks makes
obtaining final rewards difficult, and transferring information between task
variants using continuous learned values such as weights rather than discrete
symbols can be inefficient. Our key insight is that agents that act and think
symbolically are often more effective in dealing with these tasks. We propose a
memory-based learning approach that leverages the symbolic nature of
constraints and temporal ordering of actions in these tasks to quickly acquire
and transfer high-level information. We evaluate the performance of
memory-based learning on both real and simulated tasks with approximately
discontinuous constraints between states and actions, and show our method
learns to solve these tasks an order of magnitude faster than both model-based
and model-free deep reinforcement learning methods.
- Abstract(参考訳): 可能なアクションのセットが状態に依存するタスクは、現在の強化学習アルゴリズムにとって大きな課題となる。
例えば、ロックされたドアを最初にアンロックし、ドアが開く前にハンドルを回さなければならない。
これらのタスクのシーケンシャルな性質は最終的な報酬を得るのを難しくし、離散シンボルではなく重みなどの連続学習値を用いてタスク変種間で情報を伝達することは非効率である。
私たちの重要な洞察は、象徴的に行動し思考するエージェントは、これらのタスクを扱う上でより効果的であることです。
本稿では,これらのタスクにおける制約の象徴的性質と行動の時間順序を活用し,ハイレベルな情報を素早く取得・転送するためのメモリベース学習手法を提案する。
本研究では,実タスクとシミュレーションタスクの両方におけるメモリベース学習の性能を,状態と動作のほぼ不連続な制約で評価し,これらのタスクをモデルベースおよびモデルフリーの深層強化学習法よりも桁違いに高速に解く方法を示す。
関連論文リスト
- Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T17:49:12Z) - Continual Prompt Tuning for Dialog State Tracking [58.66412648276873]
望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学ぶことができるべきである。
本稿では,タスク間の知識伝達を可能にするパラメータ効率フレームワークであるContinuous Prompt Tuningを提案する。
論文 参考訳(メタデータ) (2022-03-13T13:22:41Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Continual Learning via Bit-Level Information Preserving [88.32450740325005]
我々は情報理論のレンズを通して連続学習過程を研究する。
モデルパラメータの情報利得を維持するビットレベル情報保存(BLIP)を提案する。
BLIPは、連続的な学習を通してメモリオーバーヘッドを一定に保ちながら、ほとんど忘れることができない。
論文 参考訳(メタデータ) (2021-05-10T15:09:01Z) - Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。
SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。
タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文 参考訳(メタデータ) (2021-01-28T17:35:04Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。