論文の概要: Continual Reinforcement Learning with TELLA
- arxiv url: http://arxiv.org/abs/2208.04287v1
- Date: Mon, 8 Aug 2022 17:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:48:46.107309
- Title: Continual Reinforcement Learning with TELLA
- Title(参考訳): TELLAを用いた継続的強化学習
- Authors: Neil Fendley, Cash Costello, Eric Nguyen, Gino Perrotta and Corey
Lowman
- Abstract要約: TELLAは、生涯学習エージェントのテストと評価のためのツールである。
評価と標準化された分析のために詳細なデータをロギングしながら、生涯学習エージェントに特定かつ再現可能なカリキュラムを提供する。
- 参考スコア(独自算出の注目度): 4.733158055894705
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training reinforcement learning agents that continually learn across multiple
environments is a challenging problem. This is made more difficult by a lack of
reproducible experiments and standard metrics for comparing different continual
learning approaches. To address this, we present TELLA, a tool for the Test and
Evaluation of Lifelong Learning Agents. TELLA provides specified, reproducible
curricula to lifelong learning agents while logging detailed data for
evaluation and standardized analysis. Researchers can define and share their
own curricula over various learning environments or run against a curriculum
created under the DARPA Lifelong Learning Machines (L2M) Program.
- Abstract(参考訳): 複数の環境をまたいで継続的に学習する強化学習エージェントの訓練は難しい問題である。
これは、再現可能な実験と、異なる連続学習アプローチを比較するための標準メトリクスの欠如により、より難しくなっています。
そこで本研究では,生涯学習エージェントのテスト・評価ツールであるTELLAを紹介する。
TELLAは、評価と標準化された分析のために詳細なデータをロギングしながら、特定の再現可能なカリキュラムを生涯学習エージェントに提供する。
研究者は、さまざまな学習環境上で自身のカリキュラムを定義し共有したり、darpa lifelong learning machines(l2m)プログラムで作成したカリキュラムに対して実行することができる。
関連論文リスト
- Self-Evolving GPT: A Lifelong Autonomous Experiential Learner [40.16716983217304]
大規模言語モデル(LLM)に基づく生涯の自律的経験学習フレームワークを設計する。
自律的に学習し、経験の伝達と帰納を通じて経験を蓄積し、どのような種類の入力質問を分類し、どの蓄積された経験を雇用するかを選択する。
6つのNLPデータセットによる実験結果から,本フレームワークは各中間段階において確実に動作し,GPT-3.5およびGPT-4の性能を効果的に向上することが示された。
論文 参考訳(メタデータ) (2024-07-12T02:49:13Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文 参考訳(メタデータ) (2022-03-14T19:20:26Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Do Data-based Curricula Work? [0.17188280334580194]
現在の最先端のNLPシステムは、トレーニングに多くの計算リソースを必要とする大規模なニューラルネットワークを使用している。
人間の知識獲得にインスパイアされた研究者は、カリキュラム学習、タスク(タスクベースのカリキュラム)のシークエンシング、トレーニングを容易にするデータセット(データベースのカリキュラム)の順序付けとサンプリングを提案している。
本研究では,BERT や T5 などの大規模現代言語モデルに対するデータに基づくカリキュラム学習のメリットについて検討する。
論文 参考訳(メタデータ) (2021-12-13T09:42:32Z) - Curriculum Learning: A Survey [65.31516318260759]
カリキュラム学習戦略は、機械学習のあらゆる分野で成功している。
我々は,様々な分類基準を考慮して,カリキュラム学習アプローチの分類を手作業で構築する。
集約型クラスタリングアルゴリズムを用いて,カリキュラム学習手法の階層木を構築する。
論文 参考訳(メタデータ) (2021-01-25T20:08:32Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。