Fugu-MT 論文翻訳(概要): Automatic Curriculum Learning For Deep RL: A Short Survey

論文の概要: Automatic Curriculum Learning For Deep RL: A Short Survey

arxiv url: http://arxiv.org/abs/2003.04664v2
Date: Thu, 28 May 2020 20:51:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 20:16:27.811903
Title: Automatic Curriculum Learning For Deep RL: A Short Survey
Title（参考訳）: Deep RLのための自動カリキュラム学習: 簡単な調査
Authors: R\'emy Portelas, C\'edric Colas, Lilian Weng, Katja Hofmann and Pierre-Yves Oudeyer
Abstract要約: ACL(Automatic Curriculum Learning)は,近年のDep Reinforcement Learning(DRL)の成功の基盤となっている。この研究の目標は、コンパクトで導入可能なオートマチックラーニング文学を提示し、既存の概念の交配と新しいアイデアの出現を促進するために、ACLにおける芸術の現在の状況をより深く描くことである。
参考スコア（独自算出の注目度）: 32.91961426023246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Curriculum Learning (ACL) has become a cornerstone of recent successes in Deep Reinforcement Learning (DRL).These methods shape the learning trajectories of agents by challenging them with tasks adapted to their capacities. In recent years, they have been used to improve sample efficiency and asymptotic performance, to organize exploration, to encourage generalization or to solve sparse reward problems, among others. The ambition of this work is dual: 1) to present a compact and accessible introduction to the Automatic Curriculum Learning literature and 2) to draw a bigger picture of the current state of the art in ACL to encourage the cross-breeding of existing concepts and the emergence of new ideas.
Abstract（参考訳）: ACL(Automatic Curriculum Learning)は、近年のDeep Reinforcement Learning(DRL)の成功の基盤となっている。これらの手法は、エージェントの能力に適応したタスクに挑戦することで、エージェントの学習軌跡を形成する。近年では、サンプル効率と漸近性能の向上、探索の組織化、一般化の促進、スパース報酬問題の解決などに利用されてきた。この仕事の野心は二重である。 1) オートマチックカリキュラムラーニング文献のコンパクトでアクセスしやすい紹介と紹介 2) 既存の概念の交配と新たなアイデアの出現を促進するため,ACL における最先端の図面を描くこと。

関連論文リスト

From Generation to Adaptation: Comparing AI-Assisted Strategies in High School Programming Education [0.0]
このケーススタディでは、LCA支援プログラミングにおける2つの対照的な教育的アプローチについて検討した。学生はLCAを使用して抽象仕様からコードを生成し、たった20%のMVP完了を達成した。フェーズ2では、学生はLCAを使用して、既存の最小機能ユニット(MFU)、小さな、機能的なコード例を適応し、100%MVPの完成を達成した。
論文参考訳（メタデータ） (2025-06-19T01:46:57Z)
OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds [35.652208216209985]
我々は、数十万の多様なタスクをメタトレーニングした、高度に一般化可能なコンテキスト内強化学習モデルであるOmniRLを紹介した。インコンテキスト学習(ICL)だけでは、勾配に基づく微調整を一切行わず、目に見えない体育館のタスクにうまく対応できることを初めて実証した。
論文参考訳（メタデータ） (2025-02-05T03:59:13Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
LW2G: Learning Whether to Grow for Prompt-based Continual Learning [15.766350352592331]
最近のPrompt-based Continual Learning (PCL) は、事前学習モデル(PTM)による顕著なパフォーマンスを実現している。我々は,タスク間の相違に基づいて,成長するかどうか (LW2G) をtextbfLearn Wearn に送信するプラグインモジュールを提案する。グラディエント・プロジェクションの継続学習にインスパイアされたLW2Gは、Hinder Forward Capability(HFC)と呼ばれるメトリクスを開発し、新しいタスクの学習に課される障害を測定する。
論文参考訳（メタデータ） (2024-09-27T15:55:13Z)
Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。 3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2022-10-20T03:59:11Z)
CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。 CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-19T01:45:29Z)
AANG: Automating Auxiliary Learning [110.36191309793135]
補助目的の集合を自動生成する手法を提案する。我々は、新しい統合分類体系の中で既存の目的を分解し、それらの関係を識別し、発見された構造に基づいて新しい目的を創出することで、これを実現する。これにより、生成された目的物の空間を探索し、指定されたエンドタスクに最も有用なものを見つけるための、原理的かつ効率的なアルゴリズムが導かれる。
論文参考訳（メタデータ） (2022-05-27T16:32:28Z)
Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文参考訳（メタデータ） (2022-04-25T17:58:19Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
Hierarchical Reinforcement Learning in StarCraft II with Human Expertise in Subgoals Selection [13.136763521789307]
本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRL,経験リプレイ,効果的なサブゴール選択を統合した新しい手法を提案する。提案手法は, フラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し, エージェントの性能を説明する効果的な方法を提供する。
論文参考訳（メタデータ） (2020-08-08T04:56:30Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)
Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文参考訳（メタデータ） (2020-04-24T15:48:07Z)
Trying AGAIN instead of Trying Longer: Prior Learning for Automatic Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文参考訳（メタデータ） (2020-04-07T07:30:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。