論文の概要: Learning State Abstractions for Transfer in Continuous Control
- arxiv url: http://arxiv.org/abs/2002.05518v1
- Date: Sat, 8 Feb 2020 20:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:12:07.402216
- Title: Learning State Abstractions for Transfer in Continuous Control
- Title(参考訳): 連続制御における状態抽象化の学習
- Authors: Kavosh Asadi, David Abel, Michael L. Littman
- Abstract要約: 我々は「単純な学習アルゴリズム」を表形式のQ-ラーニング、学習状態の抽象化に「良い表現」、連続的な制御タスクに「問題に対処」する。
私たちの主な貢献は、連続的な状態空間を離散的な状態空間に抽象化する学習アルゴリズムです。
- 参考スコア(独自算出の注目度): 39.177104130939185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can simple algorithms with a good representation solve challenging
reinforcement learning problems? In this work, we answer this question in the
affirmative, where we take "simple learning algorithm" to be tabular
Q-Learning, the "good representations" to be a learned state abstraction, and
"challenging problems" to be continuous control tasks. Our main contribution is
a learning algorithm that abstracts a continuous state-space into a discrete
one. We transfer this learned representation to unseen problems to enable
effective learning. We provide theory showing that learned abstractions
maintain a bounded value loss, and we report experiments showing that the
abstractions empower tabular Q-Learning to learn efficiently in unseen tasks.
- Abstract(参考訳): 優れた表現を持つ単純なアルゴリズムは、強化学習問題を解くことができるか?
そこで本研究では,この質問に対して,「シンプルな学習アルゴリズム」を表型Q-Learningとし,「よい表現」を学習状態の抽象化とし,「問題に対処する」ことを連続制御タスクとする肯定的回答を行う。
私たちの主な貢献は、連続的な状態空間を離散的に抽象化する学習アルゴリズムです。
我々は,この学習表現を未知の問題に移し,効果的な学習を可能にする。
本稿では,学習した抽象概念が有界値損失を維持できることを示す理論を提案し,その抽象概念が表在Q学習に有効であることを示す実験を報告する。
関連論文リスト
- Contrastive Abstraction for Reinforcement Learning [8.380148441566604]
我々は抽象状態を見つけるために、対照的な抽象学習を提案する。
このような抽象状態は、基本的な場所、達成されたサブゴール、在庫、健康状態である。
本実験は,強化学習におけるコントラスト抽象学習の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-01T13:56:09Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Feature Forgetting in Continual Representation Learning [48.89340526235304]
表現は、平凡な連続学習においても「破滅的な忘れ」に苦しめられることはないが、その特徴についてはほとんど知られていない。
連続的な学習における表現を評価するためのプロトコルを考案し、それを用いて連続的な表現学習の基本的傾向の概要を示す。
特徴忘れ問題を研究するために、ニューラルネットワークにおける特徴忘れの頻度を識別し視覚化する合成データセットを作成する。
論文 参考訳(メタデータ) (2022-05-26T13:38:56Z) - Memory Bounds for Continual Learning [13.734474418577188]
継続的学習(Continuous learning)、すなわち生涯学習(Lifelong learning)は、機械学習にとって、現在非常に困難な課題である。
我々は,不適切な学習者であっても,$k$で線形に成長するメモリを必要とすることを示すために,コミュニケーションの複雑さを新たに活用する。
論文 参考訳(メタデータ) (2022-04-22T17:19:50Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - A Theory of Abstraction in Reinforcement Learning [18.976500531441346]
この論文では、強化学習における抽象論について述べる。
最初に、抽象化のプロセスを実行する関数に対して、3つのdesiderataを提供します。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
論文 参考訳(メタデータ) (2022-03-01T12:46:28Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。