論文の概要: Multi-layer Abstraction for Nested Generation of Options (MANGO) in Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.17751v1
- Date: Mon, 25 Aug 2025 07:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.678032
- Title: Multi-layer Abstraction for Nested Generation of Options (MANGO) in Hierarchical Reinforcement Learning
- Title(参考訳): 階層強化学習におけるNested Generation of Options(MANGO)のための多層抽象化
- Authors: Alessio Arcudi, Davide Sartor, Alberto Sinigaglia, Vincent François-Lavet, Gian Antonio Susto,
- Abstract要約: MANGO(Multilayer Abstraction for Nested Generation of Options)は,階層型強化学習フレームワークである。
複雑なタスクを抽象化の複数のレイヤに分解し、各レイヤが抽象状態空間を定義する。
手続き的に生成されたグリッド環境での実験は、サンプル効率と一般化能力を大幅に改善した。
- 参考スコア(独自算出の注目度): 9.231127413030926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces MANGO (Multilayer Abstraction for Nested Generation of Options), a novel hierarchical reinforcement learning framework designed to address the challenges of long-term sparse reward environments. MANGO decomposes complex tasks into multiple layers of abstraction, where each layer defines an abstract state space and employs options to modularize trajectories into macro-actions. These options are nested across layers, allowing for efficient reuse of learned movements and improved sample efficiency. The framework introduces intra-layer policies that guide the agent's transitions within the abstract state space, and task actions that integrate task-specific components such as reward functions. Experiments conducted in procedurally-generated grid environments demonstrate substantial improvements in both sample efficiency and generalization capabilities compared to standard RL methods. MANGO also enhances interpretability by making the agent's decision-making process transparent across layers, which is particularly valuable in safety-critical and industrial applications. Future work will explore automated discovery of abstractions and abstract actions, adaptation to continuous or fuzzy environments, and more robust multi-layer training strategies.
- Abstract(参考訳): 本稿では,長期スパース報酬環境の課題に対処する新しい階層型強化学習フレームワークであるMANGO(Multilayer Abstraction for Nested Generation of Options)を紹介する。
MANGOは複雑なタスクを複数の抽象化層に分解し、各レイヤが抽象状態空間を定義し、軌跡をマクロアクションにモジュール化するオプションを使用する。
これらのオプションは層にまたがってネストされ、学習した動きを効率的に再利用し、サンプル効率を向上させることができる。
このフレームワークは、抽象状態空間内のエージェントの遷移を導く層内ポリシーと、報酬関数のようなタスク固有のコンポーネントを統合するタスクアクションを導入している。
手続き的に生成されたグリッド環境での実験は、標準のRL法と比較してサンプル効率と一般化能力の両方が大幅に改善された。
MANGOはまた、エージェントの意思決定プロセスを層間を透過的にすることで、解釈可能性を高める。
将来的には、抽象化と抽象アクションの自動発見、継続的あるいはファジィな環境への適応、より堅牢な多層トレーニング戦略などについて検討する予定である。
関連論文リスト
- Towards Agentic AI for Multimodal-Guided Video Object Segmentation [14.877182670778284]
参照ベースのビデオオブジェクトは、外部キューでガイドされたきめ細かいセグメンテーション結果を生成する必要のあるマルチモーダル問題である。
ビジョン言語基礎モデルの最近の進歩は、トレーニングフリーアプローチへの有望な方向性を開いている。
本稿では,この課題を柔軟かつ適応的に解決する新しいエージェントシステムであるMulti-Modal Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:11:15Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Variational Offline Multi-agent Skill Discovery [47.924414207796005]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。
StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。