論文の概要: Multi-level meta-reinforcement learning with skill-based curriculum
- arxiv url: http://arxiv.org/abs/2603.08773v1
- Date: Mon, 09 Mar 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.738718
- Title: Multi-level meta-reinforcement learning with skill-based curriculum
- Title(参考訳): スキルベースカリキュラムを用いた多段階メタ強化学習
- Authors: Sichen Yang, Mauro Maggioni,
- Abstract要約: マルコフ決定過程(MDP)を繰り返し圧縮する効率的なマルチレベル手順について述べる。
1つのレベルでのパラメトリックなポリシーは、圧縮されたMDPにおいてより高いレベルで単一のアクションとして扱われ、元のMDPの意味と構造は保存される。
この研究の2つ目の基本的な側面は、これらの多段階の分解とポリシーの分解が、異なる問題と異なるレベルのスキルの新たな移行機会をもたらすことである。
- 参考スコア(独自算出の注目度): 2.728639503114606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider problems in sequential decision making with natural multi-level structure, where sub-tasks are assembled together to accomplish complex goals. Systematically inferring and leveraging hierarchical structure has remained a longstanding challenge; we describe an efficient multi-level procedure for repeatedly compressing Markov decision processes (MDPs), wherein a parametric family of policies at one level is treated as single actions in the compressed MDPs at higher levels, while preserving the semantic meanings and structure of the original MDP, and mimicking the natural logic to address a complex MDP. Higher-level MDPs are themselves independent MDPs with less stochasticity, and may be solved using existing algorithms. As a byproduct, spatial or temporal scales may be coarsened at higher levels, making it more efficient to find long-term optimal policies. The multi-level representation delivered by this procedure decouples sub-tasks from each other and usually greatly reduces unnecessary stochasticity and the policy search space, leading to fewer iterations and computations when solving the MDPs. A second fundamental aspect of this work is that these multi-level decompositions plus the factorization of policies into embeddings (problem-specific) and skills (including higher-order functions) yield new transfer opportunities of skills across different problems and different levels. This whole process is framed within curriculum learning, wherein a teacher organizes the student agent's learning process in a way that gradually increases the difficulty of tasks and and promotes transfer across MDPs and levels within and across curricula. The consistency of this framework and its benefits can be guaranteed under mild assumptions. We demonstrate abstraction, transferability, and curriculum learning in examples, including MazeBase+, a more complex variant of the MazeBase example.
- Abstract(参考訳): 我々は,複雑な目標を達成するためにサブタスクを組み立てる,自然なマルチレベル構造を用いた逐次意思決定の課題について考察する。
マルコフ決定過程 (MDP) を反復的に圧縮する効率的な多段階的手順を記述し, 1段階のポリシーのパラメトリックなファミリーを, 圧縮されたMDPにおいて高いレベルで単一のアクションとして扱うとともに, 元のMDPの意味や構造を保存し, 複雑なMDPに対処するための自然論理を模倣する。
高レベルのMDPは、それ自体が確率性の低い独立したMDPであり、既存のアルゴリズムを用いて解決することができる。
副産物として、空間スケールや時間スケールはより高いレベルで粗くなり、長期的な最適政策を見つけるのがより効率的になる。
このプロシージャによって提供されるマルチレベル表現は、サブタスクを互いに分離し、通常不必要な確率性やポリシー探索空間を大幅に減らし、MDPを解く際のイテレーションや計算を少なくする。
この研究の2つ目の基本的な側面は、これらの多段階の分解に加えて、様々な問題と異なるレベルのスキルの新たな移行機会をもたらす、埋め込み(プロブレム固有の)とスキルへのポリシーの分解である。
このプロセス全体をカリキュラム学習に枠付けし、教師が学生エージェントの学習プロセスを、タスクの難易度を徐々に増加させ、カリキュラム内およびカリキュラム内におけるMDPとレベル間の移動を促進する方法で組織化する。
このフレームワークの一貫性とその利点は、軽度な仮定の下で保証できる。
MazeBase+は、より複雑なMazeBaseの例である。
関連論文リスト
- Sequence Pathfinder for Multi-Agent Pickup and Delivery in the Warehouse [10.576983033957953]
Multi-Agent Pickup and Delivery (MAPD) は Multi-Agent Path Finding (MAPF) の挑戦的拡張である
コミュニケーション学習は、グローバルな情報の欠如を緩和するが、ポイントツーポイント通信による高い計算複雑性をもたらす。
本稿では,暗黙的な情報交換を実現するためのシークエンシャルパスファインダ(SePar)を提案する。
論文 参考訳(メタデータ) (2025-09-28T09:48:13Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming [57.44900640134789]
StackelbergゲームとしてMILP問題解決のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。
具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。
共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-05T03:16:04Z) - Hierarchical Message-Passing Policies for Multi-Agent Reinforcement Learning [19.739901034066587]
本稿では,メッセージパスポリシーのマルチエージェント階層を学習するための,新しい効果的な手法を提案する。
階層内の下位レベルのエージェントは、上位レベルから目標を受け取り、隣のエージェントとメッセージを同じレベルで交換する。
関連ベンチマークの結果から,本手法は最先端技術と比較して好適な性能を示した。
論文 参考訳(メタデータ) (2025-07-31T14:42:12Z) - Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。
本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。
単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes [15.50007257943931]
本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T02:10:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。