論文の概要: A Definition of Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.11046v2
- Date: Fri, 1 Dec 2023 13:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:20:20.307016
- Title: A Definition of Continual Reinforcement Learning
- Title(参考訳): 連続的強化学習の定義
- Authors: David Abel, Andr\'e Barreto, Benjamin Van Roy, Doina Precup, Hado van
Hasselt, Satinder Singh
- Abstract要約: 強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。
継続的強化学習とは、最高のエージェントが決して学習をやめない状態を指す。
エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめることはない」エージェントの概念を定式化する。
- 参考スコア(独自算出の注目度): 69.56273766737527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a standard view of the reinforcement learning problem, an agent's goal is
to efficiently identify a policy that maximizes long-term reward. However, this
perspective is based on a restricted view of learning as finding a solution,
rather than treating learning as endless adaptation. In contrast, continual
reinforcement learning refers to the setting in which the best agents never
stop learning. Despite the importance of continual reinforcement learning, the
community lacks a simple definition of the problem that highlights its
commitments and makes its primary concepts precise and clear. To this end, this
paper is dedicated to carefully defining the continual reinforcement learning
problem. We formalize the notion of agents that "never stop learning" through a
new mathematical language for analyzing and cataloging agents. Using this new
language, we define a continual learning agent as one that can be understood as
carrying out an implicit search process indefinitely, and continual
reinforcement learning as the setting in which the best agents are all
continual learning agents. We provide two motivating examples, illustrating
that traditional views of multi-task reinforcement learning and continual
supervised learning are special cases of our definition. Collectively, these
definitions and perspectives formalize many intuitive concepts at the heart of
learning, and open new research pathways surrounding continual learning agents.
- Abstract(参考訳): 強化学習問題の標準的な見方では、エージェントの目標は、長期的な報酬を最大化するポリシーを効率的に識別することである。
しかし、この視点は学習を無限の適応として扱うのではなく、解決策を見つけるという限定的な視点に基づいている。
対照的に、継続的強化学習は、最高のエージェントが決して学習をやめない状態を指す。
継続的な強化学習の重要性にもかかわらず、コミュニティは、そのコミットメントを強調し、主要な概念を正確かつ明確にする、問題の単純な定義を欠いている。
そこで本稿では,継続的な強化学習問題を慎重に定義することを目的としている。
エージェントの分析とカタログ化のための新しい数学的言語を通じて「学習をやめない」エージェントの概念を定式化する。
この新しい言語を用いて, 連続学習エージェントを, 暗黙の探索処理を無期限に行うものと解釈し, 連続的な強化学習を, 最良のエージェントが連続学習エージェントであるような設定として定義する。
本稿では,従来のマルチタスク強化学習と継続的教師付き学習が,私たちの定義の特別な事例であることを示す。
これらの定義と視点は、学習の中心にある多くの直感的な概念を定式化し、継続学習エージェントを取り巻く新しい研究経路を開く。
関連論文リスト
- A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents [18.2920082469313]
オープンエンドラーニングは、一般的に、多様な性質の集合を含む複合概念として考えられている。
我々は、エージェントがゴール駆動スキルのレパートリーを増大させることが可能な、オープンエンドの目標条件強化学習問題のサブセットに焦点を当てる。
論文 参考訳(メタデータ) (2023-11-01T07:37:27Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - A Comprehensive Survey of Continual Learning: Theory, Method and
Application [64.23253420555989]
本稿では,基礎的設定,理論的基礎,代表的方法,実践的応用を橋渡しする継続的学習に関する包括的調査を行う。
連続学習の一般的な目的は、資源効率の文脈において、適切な安定性と塑性のトレードオフと適切なタスク内/タスク内一般化性を保証することであると要約する。
論文 参考訳(メタデータ) (2023-01-31T11:34:56Z) - Unveiling the Tapestry: the Interplay of Generalization and Forgetting in Continual Learning [18.61040106667249]
AIでは、一般化とは、与えられたタスクに関連するアウト・オブ・ディストリビューション・データに対して、トレーニングされたデータ以外にうまく機能するモデルの能力を指す。
継続的な学習方法は、しばしば破滅的な忘れを軽減し、以前のタスクからの知識を確実に保持するメカニズムを含んでいる。
本稿では, 形状テクスチュア整合性規則化(STCR)と呼ばれる, 連続的な学習を支援する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T04:36:24Z) - A Review of Uncertainty for Deep Reinforcement Learning [0.0]
不確実性はゲームにおいて、エージェントがゲームをプレイしたり、ゲーム自体で頻繁に発生する。
この研究は、不確実性を意識した深層強化学習において、既存のテクニックを動機づけ、提示する概要を提供する。
論文 参考訳(メタデータ) (2022-08-18T20:42:19Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Towards a theory of out-of-distribution learning [23.878004729029644]
本稿では,PAC学習フレームワークを用いて,異なる学習課題を定義するための時系列的アプローチを提案する。
まずは流通学習から始め、最近提案された生涯学習や継続学習へと進む。
この研究によって、さまざまなタイプの学習を定量化する、普遍的に合意されたアプローチがもたらされることを期待しています。
論文 参考訳(メタデータ) (2021-09-29T15:35:16Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Online Fast Adaptation and Knowledge Accumulation: a New Approach to
Continual Learning [74.07455280246212]
継続的な学習は、新しいタスクに適応しながら、以前のタスクを忘れずにタスクの流れから学ぶエージェントを研究する。
この新たなシナリオでは、現在の連続学習、メタ学習、メタ連続学習、および連続メタ学習技術が失敗することを示します。
本稿では,このシナリオの強力なベースラインとして,人気のあるMAMLアルゴリズムのオンライン拡張であるContinual-MAMLを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。