論文の概要: Autonomous Curriculum Design via Relative Entropy Based Task Modifications
- arxiv url: http://arxiv.org/abs/2502.21166v1
- Date: Fri, 28 Feb 2025 15:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:12.955991
- Title: Autonomous Curriculum Design via Relative Entropy Based Task Modifications
- Title(参考訳): 相対エントロピーに基づくタスク修正による自律的カリキュラム設計
- Authors: Muhammed Yusuf Satici, Jianxun Wang, David L. Roberts,
- Abstract要約: そこで本稿では,学習者の不確実性を活用してキュリキュラを自動的に設計する手法を提案する。
提案手法は,相対エントロピーを用いて学習者の政策の不確実性を測定し,学習を容易にするためにエージェントを高い不確実性状態へ誘導する。
- 参考スコア(独自算出の注目度): 2.598322189718465
- License:
- Abstract: Curriculum learning is a training method in which an agent is first trained on a curriculum of relatively simple tasks related to a target task in an effort to shorten the time required to train on the target task. Autonomous curriculum design involves the design of such curriculum with no reliance on human knowledge and/or expertise. Finding an efficient and effective way of autonomously designing curricula remains an open problem. We propose a novel approach for automatically designing curricula by leveraging the learner's uncertainty to select curricula tasks. Our approach measures the uncertainty in the learner's policy using relative entropy, and guides the agent to states of high uncertainty to facilitate learning. Our algorithm supports the generation of autonomous curricula in a self-assessed manner by leveraging the learner's past and current policies but it also allows the use of teacher guided design in an instructive setting. We provide theoretical guarantees for the convergence of our algorithm using two time-scale optimization processes. Results show that our algorithm outperforms randomly generated curriculum, and learning directly on the target task as well as the curriculum-learning criteria existing in literature. We also present two additional heuristic distance measures that could be combined with our relative-entropy approach for further performance improvements.
- Abstract(参考訳): カリキュラム学習(英: Curriculum learning)とは、ターゲットタスクのトレーニングに必要な時間を短縮するために、ターゲットタスクに関連する比較的単純なタスクのカリキュラムでエージェントを訓練する訓練方法である。
自律的なカリキュラム設計には、人間の知識や専門知識に依存しないようなカリキュラムの設計が含まれる。
カリキュラムを自律的に設計する効率的で効果的な方法を見つけることは、未解決の問題である。
そこで本稿では,学習者の不確実性を利用してカリキュラムを自動的に設計する手法を提案する。
提案手法は,相対エントロピーを用いて学習者の政策の不確実性を測定し,学習を容易にするためにエージェントを高い不確実性状態へ誘導する。
本アルゴリズムは,学習者の過去と現在の方針を活用することで,自己評価による自己評価型カリキュラムの生成を支援するが,教師指導型設計を指導的環境で活用することも可能である。
2つの時間スケール最適化プロセスを用いてアルゴリズムの収束を理論的に保証する。
その結果,本アルゴリズムはランダムに生成したカリキュラムよりも優れており,対象タスクを直接学習すると同時に,文学に存在するカリキュラム学習基準も向上していることがわかった。
また, 相対エントロピー法と組み合わせることで, さらなる性能向上が期待できる2つのヒューリスティック距離測定法を提案する。
関連論文リスト
- Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - CQM: Curriculum Reinforcement Learning with a Quantized World Model [30.21954044028645]
本稿では,カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案する。
自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
また、エゴ中心の視覚入力においても、データ効率と性能に関する最先端のカリキュラムRL法よりも、様々な目標達成タスクにおいて優れています。
論文 参考訳(メタデータ) (2023-10-26T11:50:58Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Outcome-directed Reinforcement Learning by Uncertainty & Temporal
Distance-Aware Curriculum Goal Generation [29.155620517531656]
現在の強化学習(RL)は、望まれる結果や高い報奨がほとんど得られない挑戦的な探索問題の解決に苦しむことが多い。
両部マッチング問題を解くことにより,結果指向のRLに対する不確実性と時間的距離対応の目標生成手法を提案する。
カリキュラムの正確な校正ガイダンスを望ましい結果状態に提供できただけでなく、以前のカリキュラムRL法と比較して、サンプル効率と幾何学に依存しないカリキュラム目標の提案能力も大幅に向上した。
論文 参考訳(メタデータ) (2023-01-27T14:25:04Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。