論文の概要: TEACH: Temporal Variance-Driven Curriculum for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.22824v1
- Date: Sun, 28 Dec 2025 07:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.242357
- Title: TEACH: Temporal Variance-Driven Curriculum for Reinforcement Learning
- Title(参考訳): TEACH:強化学習のための時間変動駆動型カリキュラム
- Authors: Gaurav Chaudhary, Laxmidhar Behera,
- Abstract要約: 本稿では,目標設定RLを高速化するために,時間変数駆動型カリキュラムを用いた新しい学生-教師学習パラダイムを提案する。
このフレームワークでは、教師モジュールはポリシーの信頼度スコアが最も高い時間差で目標を動的に優先順位付けする。
11種類の多様なロボット操作および迷路ナビゲーションタスクの評価を通じてこれを実証する。
- 参考スコア(独自算出の注目度): 8.366600075241847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has achieved significant success in solving single-goal tasks. However, uniform goal selection often results in sample inefficiency in multi-goal settings where agents must learn a universal goal-conditioned policy. Inspired by the adaptive and structured learning processes observed in biological systems, we propose a novel Student-Teacher learning paradigm with a Temporal Variance-Driven Curriculum to accelerate Goal-Conditioned RL. In this framework, the teacher module dynamically prioritizes goals with the highest temporal variance in the policy's confidence score, parameterized by the state-action value (Q) function. The teacher provides an adaptive and focused learning signal by targeting these high-uncertainty goals, fostering continual and efficient progress. We establish a theoretical connection between the temporal variance of Q-values and the evolution of the policy, providing insights into the method's underlying principles. Our approach is algorithm-agnostic and integrates seamlessly with existing RL frameworks. We demonstrate this through evaluation across 11 diverse robotic manipulation and maze navigation tasks. The results show consistent and notable improvements over state-of-the-art curriculum learning and goal-selection methods.
- Abstract(参考訳): 強化学習(RL)は、単一ゴールタスクの解決において大きな成功を収めた。
しかし、統一的なゴール選択は、エージェントが普遍的なゴール条件付きポリシーを学ばなければならないマルチゴール設定において、しばしばサンプルの非効率をもたらす。
生物系における適応的・構造化的な学習プロセスに着想を得て,時間的変動を考慮した学習パラダイムを提案し,ゴール・コンディション付きRLを加速させる。
このフレームワークでは、教師モジュールは、状態-作用値(Q)関数によってパラメータ化され、ポリシーの信頼度スコアの最高時間差で目標を動的に優先順位付けする。
教師は、これらの高い不確実性目標を目標とすることで適応的で集中的な学習信号を提供し、継続的で効率的な進歩を育む。
我々は、Q値の時間的分散とポリシーの進化の間に理論的な関連性を確立し、その方法の基本原理に関する洞察を提供する。
我々のアプローチはアルゴリズムに依存しず、既存のRLフレームワークとシームレスに統合されます。
11種類の多様なロボット操作および迷路ナビゲーションタスクの評価を通じてこれを実証する。
その結果,最先端のカリキュラム学習やゴール選択手法よりも一貫した,顕著な改善が見られた。
関連論文リスト
- Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。
有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。
本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-02T08:15:16Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。