論文の概要: Automating Curriculum Learning for Reinforcement Learning using a Skill-Based Bayesian Network
- arxiv url: http://arxiv.org/abs/2502.15662v1
- Date: Fri, 21 Feb 2025 18:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:37.738363
- Title: Automating Curriculum Learning for Reinforcement Learning using a Skill-Based Bayesian Network
- Title(参考訳): スキルベースベイズネットワークを用いた強化学習のためのカリキュラム学習の自動化
- Authors: Vincent Hsiao, Mark Roberts, Laura M. Hiatt, George Konidaris, Dana Nau,
- Abstract要約: 本稿では,スキルセットと目標セットの確率的関係をモデル化したSEBN(スキル-環境ベイズネットワーク)を紹介する。
提案手法は,SEBNのエージェント成功の推定値を用いて,期待される改善によって次のタスクを評価するアルゴリズムである。
この結果,SEBNを用いて構築したキュリキュラは,他のベースラインよりも頻繁に優れていた。
- 参考スコア(独自算出の注目度): 9.050732929538336
- License:
- Abstract: A major challenge for reinforcement learning is automatically generating curricula to reduce training time or improve performance in some target task. We introduce SEBNs (Skill-Environment Bayesian Networks) which model a probabilistic relationship between a set of skills, a set of goals that relate to the reward structure, and a set of environment features to predict policy performance on (possibly unseen) tasks. We develop an algorithm that uses the inferred estimates of agent success from SEBN to weigh the possible next tasks by expected improvement. We evaluate the benefit of the resulting curriculum on three environments: a discrete gridworld, continuous control, and simulated robotics. The results show that curricula constructed using SEBN frequently outperform other baselines.
- Abstract(参考訳): 強化学習の大きな課題は、トレーニング時間を短縮したり、目標とするタスクのパフォーマンスを向上させるために、自動的にカリキュラムを生成することである。
本報告では,SEBN(スキル・環境ベイズネットワーク)を導入し,スキルセット,報酬構造に関連する目標セット,および(見当たらない)タスクに対する政策パフォーマンスを予測する環境特徴セットの確率的関係をモデル化する。
提案手法は,SEBNのエージェント成功の推定値を用いて,期待される改善によって次のタスクを評価するアルゴリズムである。
本研究では, 離散グリッドワールド, 連続制御, シミュレーションロボティクスの3つの環境におけるカリキュラムの利点を評価する。
この結果,SEBNを用いて構築したキュリキュラは,他のベースラインよりも頻繁に優れていた。
関連論文リスト
- Anticipate & Act : Integrating LLMs and Classical Planning for Efficient Task Execution in Household Environments [16.482992646001996]
我々は,これらの課題を共同で達成する行動列を計算し,家庭内課題を予測するための枠組みを開発する。
今後の課題を考慮しないシステムと比較して,実行時間の31%削減を実証する。
論文 参考訳(メタデータ) (2025-02-04T07:31:55Z) - Towards Goal-oriented Intelligent Tutoring Systems in Online Education [69.06930979754627]
目標指向知能チューニングシステム(GITS)という新しいタスクを提案する。
GITSは,演習や評価のカスタマイズを戦略的に計画することで,学生の指定概念の習得を可能にすることを目的としている。
PAI(Planning-Assessment-Interaction)と呼ばれるグラフに基づく新しい強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T12:37:16Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。
提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。
また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文 参考訳(メタデータ) (2023-05-25T22:13:37Z) - Proto-Value Networks: Scaling Representation Learning with Auxiliary
Tasks [33.98624423578388]
補助的なタスクは、深層強化学習エージェントによって学習された表現を改善する。
我々は、後継措置に基づく新しい補助業務のファミリーを導出する。
プロト値ネットワークは、確立されたアルゴリズムに匹敵する性能を得るために、リッチな特徴を生み出すことを示す。
論文 参考訳(メタデータ) (2023-04-25T04:25:08Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - STAP: Sequencing Task-Agnostic Policies [22.25415946972336]
本稿では,長期的課題を解決するために,操作スキルを訓練し,それらの幾何学的依存関係を計画時に調整するためのシークエンシングタスク非依存ポリシー(STAP)を提案する。
実験により, この目的関数が真理計画の実現可能性に近似していることが示唆された。
タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPがタスク計画や動作計画にどのように使えるかを実証する。
論文 参考訳(メタデータ) (2022-10-21T21:09:37Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。