論文の概要: Curriculum reinforcement learning with measurable task representation learning
- arxiv url: http://arxiv.org/abs/2605.23372v1
- Date: Fri, 22 May 2026 08:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.265468
- Title: Curriculum reinforcement learning with measurable task representation learning
- Title(参考訳): 測定可能なタスク表現学習を用いたカリキュラム強化学習
- Authors: Yongyan Wen, Siyuan Li, Mingjian Fu, Yiqin Yang, Xun Wang, Peng Liu,
- Abstract要約: カリキュラム強化学習(CRL)では、エージェントは一連のタスク(カリキュラム)に知識を蓄積する。
本稿では,測定可能なタスク表現学習に基づく新しいカリキュラム生成手法を提案する。
提案手法は,様々な課題のあるナビゲーションタスクにおいて評価され,実験結果から,提案手法が最先端のジェネレーティブ・ジェネレーティブ・ジェネレーティブ・アプローチを超越していることが示唆された。
- 参考スコア(独自算出の注目度): 17.66199732810559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In curriculum reinforcement learning (CRL), an agent incrementally accumulates knowledge over a sequence of tasks (i.e., a curriculum), and the learning process is aimed at using the accumulated knowledge to finally solve a challenging target task. While early CRL works focus on sequencing candidate tasks, recent research explores automatic curriculum generation. Among the rich CRL literature, the interpolation-based CRL paradigm is a main body, which automatically generates intermediate tasks by interpolating between the initial task distribution and the target task distribution in task space with meaningful distance metrics (i.e., can measure the task similarity). However, in challenging navigation tasks, the non-Euclidean context (task) space invalidates this assumption. To achieve automatic curriculum generation in complex task, we propose a novel automatic curriculum generation approach based on measurable task representation learning. To better measure the similarity, we propose to transform the task space to a latent space. Through a variational autoencoder structure that encodes the reward and the state transitions, we achieve a latent task representation with a task similarity measurement property, and two close task embeddings correspond to two similar tasks in terms of rewards and state transitions. Based on the learned task representation, we further develop an automatic curriculum generation scheme, which can effectively generate new tasks more and more similar to the target task. We evaluate our method in a variety of challenging navigation tasks, and the experiment results indicate that the proposed approach surpasses state-of-the-art CRL approaches based on interpolation and generative adversarial networks.
- Abstract(参考訳): カリキュラム強化学習(CRL)では、エージェントが一連のタスク(すなわちカリキュラム)に段階的に知識を蓄積し、学習プロセスは蓄積した知識を使用して最終的に困難な目標タスクを解決することを目的としている。
初期のCRLは、候補タスクのシークエンシングに重点を置いているが、最近の研究では、自動カリキュラム生成について検討している。
リッチなCRL文献の中で、補間に基づくCRLパラダイムはメインボディであり、タスク空間における初期タスク分布と目標タスク分布を意味のある距離メトリクスで補間することにより、中間タスクを自動的に生成する(すなわち、タスク類似度を測定することができる)。
しかし、困難なナビゲーションタスクでは、非ユークリッド文脈(タスク)空間はこの仮定を無効にする。
複雑なタスクにおける自動カリキュラム生成を実現するために,測定可能なタスク表現学習に基づく新しいカリキュラム生成手法を提案する。
類似性をよりよく評価するために,タスク空間を潜在空間に変換することを提案する。
報酬と状態遷移を符号化する変分オートエンコーダ構造により、タスク類似度測定特性を持つ潜在タスク表現を実現し、2つの近接タスク埋め込みは報酬と状態遷移の2つの類似タスクに対応する。
学習したタスク表現に基づいて、ターゲットタスクとよりよく似たタスクを効果的に生成できる自動カリキュラム生成スキームをさらに発展させる。
実験の結果,提案手法は補間および生成的対向ネットワークに基づく最先端のCRLアプローチを超越していることがわかった。
関連論文リスト
- Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills [17.666749042008178]
本稿では,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
DCMRLは、同じタスク内で同様のタスクコンテキストを取り出し、異なるタスクの異なるタスクコンテキストをプッシュします。
実験により、DCMRLは従来のメタRL法よりも有効であり、より一般化可能な事前経験を持つことが示された。
論文 参考訳(メタデータ) (2023-12-11T16:50:14Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。