論文の概要: Teacher-student curriculum learning for reinforcement learning
- arxiv url: http://arxiv.org/abs/2210.17368v1
- Date: Mon, 31 Oct 2022 14:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:48:08.406900
- Title: Teacher-student curriculum learning for reinforcement learning
- Title(参考訳): 教員学生による強化学習のためのカリキュラム学習
- Authors: Yanick Schraner
- Abstract要約: 強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
- 参考スコア(独自算出の注目度): 1.7259824817932292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (rl) is a popular paradigm for sequential decision
making problems. The past decade's advances in rl have led to breakthroughs in
many challenging domains such as video games, board games, robotics, and chip
design. The sample inefficiency of deep reinforcement learning methods is a
significant obstacle when applying rl to real-world problems. Transfer learning
has been applied to reinforcement learning such that the knowledge gained in
one task can be applied when training in a new task. Curriculum learning is
concerned with sequencing tasks or data samples such that knowledge can be
transferred between those tasks to learn a target task that would otherwise be
too difficult to solve. Designing a curriculum that improves sample efficiency
is a complex problem. In this thesis, we propose a teacher-student curriculum
learning setting where we simultaneously train a teacher that selects tasks for
the student while the student learns how to solve the selected task. Our method
is independent of human domain knowledge and manual curriculum design. We
evaluated our methods on two reinforcement learning benchmarks: grid world and
the challenging Google Football environment. With our method, we can improve
the sample efficiency and generality of the student compared to tabula-rasa
reinforcement learning.
- Abstract(参考訳): 強化学習(rl)は、逐次的意思決定問題の一般的なパラダイムである。
過去10年間のrlの進歩は、ビデオゲーム、ボードゲーム、ロボティクス、チップデザインなど、多くの挑戦的な領域でブレークスルーをもたらした。
実世界問題にrlを適用する場合,深層強化学習法のサンプル非効率性は大きな障害となる。
転向学習は1つのタスクで得た知識を新しいタスクでトレーニングする際に適用できるように強化学習に適用されている。
カリキュラム学習は、タスクやデータサンプルのシークエンシングに関係しており、知識をそれらのタスク間で転送して、解決が難しいターゲットタスクを学ぶことができる。
サンプル効率を改善するカリキュラムを設計するのは複雑な問題です。
そこで本論文では,生徒が選択した課題の解き方を学ぶ間,生徒のタスクを選択できる教師を同時に訓練する教師教育カリキュラム学習環境を提案する。
本手法は,人間のドメイン知識と手作業によるカリキュラム設計とは無関係である。
提案手法をグリッドワールドとGoogle Football環境の2つの強化学習ベンチマークで評価した。
提案手法では,タブラ・ラサ強化学習と比較して,学生のサンプル効率と汎用性が向上する。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Efficient Mitigation of Bus Bunching through Setter-Based Curriculum Learning [0.47518865271427785]
本稿では,セッターモデルを用いて,行動空間,対向強み,集団強みを自動生成するカリキュラム学習手法を提案する。
自動カリキュラム学習の手法は、動的に選択され、敵対するネットワークによって学習されるカリキュラムを含む。
論文 参考訳(メタデータ) (2024-05-23T18:26:55Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Transferring Knowledge for Reinforcement Learning in Contact-Rich
Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。
提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。
我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文 参考訳(メタデータ) (2022-09-19T10:31:13Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Efficiently Identifying Task Groupings for Multi-Task Learning [55.80489920205404]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
マルチタスク学習モデルにおいて、どのタスクを一緒にトレーニングすべきかを選択するアプローチを提案する。
本手法は,全タスクを協調学習し,タスクの勾配が他のタスクの損失に影響を及ぼす影響を定量化する。
論文 参考訳(メタデータ) (2021-09-10T02:01:43Z) - Multi-task curriculum learning in a complex, visual, hard-exploration
domain: Minecraft [18.845438529816004]
私たちは、複雑な視覚的な領域でカリキュラムの学習を探索し、多くの難しい探索課題を経験します。
学習の進歩は,効果的なカリキュラムを自動構築する上で,学習可能性の信頼性の高い尺度であることが判明した。
論文 参考訳(メタデータ) (2021-06-28T17:50:40Z) - Curriculum Learning with Hindsight Experience Replay for Sequential
Object Manipulation Tasks [1.370633147306388]
本稿では,カリキュラム学習とHER(Hindsight Experience Replay)を組み合わせて,逐次的なオブジェクト操作タスクを学習するアルゴリズムを提案する。
このアルゴリズムは、多くのオブジェクト操作タスクに固有のリカレント構造を利用し、元のシミュレーションで学習プロセス全体を各ソースタスクに調整することなく実装する。
論文 参考訳(メタデータ) (2020-08-21T08:59:28Z) - Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch [14.334987432342707]
本研究では,教師と生徒が任意に状態空間と行動空間を共有できるトランスファー学習の枠組みを提案する。
このミスマッチに対処するため,教師の方針や価値ネットワークから知識を体系的に抽出できる埋め込みを生成する。
我々は,教師と生徒が異なる状態空間と行動空間を持つ状況下で,伝達学習を成功させることを実証した。
論文 参考訳(メタデータ) (2020-06-12T09:51:17Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。