論文の概要: Reinforcement Learning with Anticipation: A Hierarchical Approach for Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2509.05545v1
- Date: Sat, 06 Sep 2025 00:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.572187
- Title: Reinforcement Learning with Anticipation: A Hierarchical Approach for Long-Horizon Tasks
- Title(参考訳): 予測による強化学習--長距離タスクの階層的アプローチ
- Authors: Yang Yu,
- Abstract要約: 長期の目標条件付きタスクの解決は、強化学習において重要な課題である。
Reinforcement Learning with Precipation(RLA)は、これらの制限に対処するために設計された、原則付き、潜在的にスケーラブルなフレームワークです。
RLAの主な特徴は予測モデルのトレーニングであり、これは値の幾何的一貫性の原則によって導かれる。
- 参考スコア(独自算出の注目度): 3.79187263097166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Solving long-horizon goal-conditioned tasks remains a significant challenge in reinforcement learning (RL). Hierarchical reinforcement learning (HRL) addresses this by decomposing tasks into more manageable sub-tasks, but the automatic discovery of the hierarchy and the joint training of multi-level policies often suffer from instability and can lack theoretical guarantees. In this paper, we introduce Reinforcement Learning with Anticipation (RLA), a principled and potentially scalable framework designed to address these limitations. The RLA agent learns two synergistic models: a low-level, goal-conditioned policy that learns to reach specified subgoals, and a high-level anticipation model that functions as a planner, proposing intermediate subgoals on the optimal path to a final goal. The key feature of RLA is the training of the anticipation model, which is guided by a principle of value geometric consistency, regularized to prevent degenerate solutions. We present proofs that RLA approaches the globally optimal policy under various conditions, establishing a principled and convergent method for hierarchical planning and execution in long-horizon goal-conditioned tasks.
- Abstract(参考訳): 長期的目標条件タスクの解決は、強化学習(RL)において重要な課題である。
階層的強化学習(HRL)は、タスクをより管理可能なサブタスクに分解することでこの問題に対処するが、階層の自動発見と多段階政策の共同訓練はしばしば不安定に悩まされ、理論的保証が欠如する。
本稿では,これらの制約に対処するために設計された,原則的かつ潜在的にスケーラブルなフレームワークであるReinforcement Learning with Precipation(RLA)を紹介する。
RLAエージェントは、指定されたサブゴールに到達することを学ぶ低レベルで目標条件のポリシーと、プランナーとして機能するハイレベルな予測モデルという2つの相乗的モデルを学び、最終ゴールへの最適な経路について中間のサブゴールを提案する。
RLAの鍵となる特徴は予測モデルのトレーニングであり、これは値の幾何的一貫性の原則によって導かれ、縮退した解を避けるために正規化される。
本稿では,RLAが多種多様な条件下でのグローバルな最適政策にアプローチし,長期的目標条件付きタスクにおける階層的計画と実行の原則的・収束的手法を確立することの証明を示す。
関連論文リスト
- Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.894271401094615]
HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。
本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。
この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文 参考訳(メタデータ) (2025-05-27T20:38:44Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning [22.319208517053816]
目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。
動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2020-06-20T03:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。