論文の概要: Continual Auxiliary Task Learning
- arxiv url: http://arxiv.org/abs/2202.11133v1
- Date: Tue, 22 Feb 2022 19:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:50:05.515031
- Title: Continual Auxiliary Task Learning
- Title(参考訳): 連続補助的タスク学習
- Authors: Matthew McLeod, Chunlok Lo, Matthew Schlegel, Andrew Jacobsen, Raksha
Kumaraswamy, Martha White, Adam White
- Abstract要約: 補助課題の収集を学習するために設計された強化学習システムについて検討し,それらの補助的予測を改善するための行動政策学習を行う。
非定常的な報酬の下での追跡を容易にする後継機能に基づくアルゴリズムを開発し、学習後継機能への分離を証明し、報酬が収束率の向上をもたらす。
- 参考スコア(独自算出の注目度): 24.165583481949827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning auxiliary tasks, such as multiple predictions about the world, can
provide many benefits to reinforcement learning systems. A variety of
off-policy learning algorithms have been developed to learn such predictions,
but as yet there is little work on how to adapt the behavior to gather useful
data for those off-policy predictions. In this work, we investigate a
reinforcement learning system designed to learn a collection of auxiliary
tasks, with a behavior policy learning to take actions to improve those
auxiliary predictions. We highlight the inherent non-stationarity in this
continual auxiliary task learning problem, for both prediction learners and the
behavior learner. We develop an algorithm based on successor features that
facilitates tracking under non-stationary rewards, and prove the separation
into learning successor features and rewards provides convergence rate
improvements. We conduct an in-depth study into the resulting multi-prediction
learning system.
- Abstract(参考訳): 世界の複数の予測のような補助的なタスクの学習は、強化学習システムに多くの利点をもたらす。
このような予測を学習するために、さまざまなオフポリシー学習アルゴリズムが開発されているが、オフポリシー予測に有用なデータを集めるために、その動作をどのように適応させるかについては、まだほとんど作業がない。
本研究では,補助タスクの集合を学習するための強化学習システムと,補助タスクの予測を改善するための行動政策学習について検討する。
予測学習者と行動学習者の両方にとって,この連続的補助タスク学習問題に固有の非定常性に注目した。
我々は,非定常報酬下での追跡を容易にする後継機能に基づくアルゴリズムを開発し,後継機能と後継機能との分離が収束率の向上に寄与することを示す。
得られたマルチプレディション学習システムについて詳細な研究を行う。
関連論文リスト
- Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Ticketed Learning-Unlearning Schemes [57.89421552780526]
そこで我々は,学習のためのチケット付きモデルを提案する。
広義のコンセプトクラスに対して,空間効率のよいチケット付き学習スキームを提供する。
論文 参考訳(メタデータ) (2023-06-27T18:54:40Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Towards a General Pre-training Framework for Adaptive Learning in MOOCs [37.570119583573955]
異種学習要素を適切に活用した,データ観測と学習スタイル分析に基づく統合フレームワークを提案する。
授業の構造やテキスト,知識は,学生の非逐次学習行動に本質的に整合性があり,モデリングに有用であることがわかった。
論文 参考訳(メタデータ) (2022-07-18T13:18:39Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。