論文の概要: Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.13207v1
- Date: Wed, 13 May 2026 08:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.930164
- Title: Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning
- Title(参考訳): 階層型ゼロショット強化学習のための継承手段の切り替え
- Authors: Stefan Stojanovic, Alexandre Proutiere,
- Abstract要約: 我々は、強化学習における階層的制御を可能にする後継尺度である切替後継尺度を導入する。
後継策の切り替えは,その構造を保ちながら,古典的後継措置から自然に生じることを示す。
FB$-Switchは非階層的ベースラインよりも改善されている。
- 参考スコア(独自算出の注目度): 49.24483784910263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical reinforcement learning can improve generalization by decomposing long-horizon decision-making into simpler subproblems. However, existing approaches often rely on restrictive design choices, such as fixed temporal abstractions or goal-conditioned objectives, which largely confine them to goal-reaching tasks and limit their applicability to general reward functions. In this paper, we introduce switching successor measures, an extension of successor measures that enables hierarchical control in zero-shot reinforcement learning without additional supervision, fixed horizons, or manually designed subgoals. We show that switching successor measures arise naturally from classical successor measures while preserving their underlying structure. Building on this result, we propose FB $π$-Switch, an algorithm that extracts both a high-level subgoal-selection policy and a low-level control policy directly from forward-backward (FB) representations, allowing hierarchical behavior to emerge from a single learned representation. Experiments on both goal-conditioned and general reward-based tasks show that FB $π$-Switch improves over non-hierarchical baselines and matches state-of-the-art hierarchical methods in goal-conditioned settings. These results demonstrate that structured successor representations provide a flexible foundation for hierarchical zero-shot reinforcement learning beyond goal-reaching tasks. Our project website is available at: https://stestokth.github.io/switching-successors/.
- Abstract(参考訳): 階層的強化学習は、長い水平決定をより単純なサブプロブレムに分解することで、一般化を改善することができる。
しかしながら、既存のアプローチは、固定時間的抽象や目標条件付き目的など、限定的な設計選択に依存しており、それらは主に目標達成タスクに制限され、一般の報酬関数に適用性を制限する。
本稿では,ゼロショット強化学習における階層的制御を,追加の監督や固定地平線,手動設計によるサブゴールを伴わずに実現するための代替手段である切替後継策を導入する。
本研究は,古典的後継対策から,その基盤構造を保ちながら,スイッチング後継措置が自然に生じることを示す。
この結果に基づいて,FB $π$-Switchを提案する。このアルゴリズムは,高レベルなサブゴール選択ポリシーと低レベルな制御ポリシーの両方をフォワードバック(FB)表現から直接抽出し,階層的な動作を1つの学習表現から得ることができる。
FB$π$-Switchは非階層的ベースラインよりも改善され、ゴール条件付きおよび一般報酬ベースのタスクにおいて最先端の階層的メソッドと一致することを示す。
これらの結果は、構造化後継表現が、ゴール獲得タスクを超えて階層的ゼロショット強化学習の柔軟な基盤を提供することを示す。
プロジェクトのWebサイトは、https://stestokth.github.io/switching-successors/.com/で公開されている。
関連論文リスト
- Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation [6.115550515200226]
HD-ExpItは環境フィードバックによる階層的拡散ポリシーの反復的微調整のためのフレームワークである。
オフラインデータのみにトレーニングされた階層的なポリシを大幅に改善する。
論文 参考訳(メタデータ) (2026-03-05T15:34:43Z) - Chain-of-Goals Hierarchical Policy for Long-Horizon Offline Goal-Conditioned RL [25.40364932514488]
本稿では,自己回帰シーケンスモデルとして階層的意思決定を再構築する新しい枠組みを提案する。
CoGHPは、強いオフラインベースラインを一貫して上回り、長期タスクのパフォーマンスを改善している。
論文 参考訳(メタデータ) (2026-02-03T11:11:03Z) - Solving Sokoban using Hierarchical Reinforcement Learning with Landmarks [0.0]
本稿では,パズルゲーム「ソコバン」に適用した新しい階層型強化学習フレームワークを提案する。
提案手法は6段階のポリシー階層を構築し,各上位のポリシーが下位のレベルに対してサブゴールを生成する。
すべてのサブゴールとポリシーは、ドメインの知識なしに、ゼロからエンドツーエンドに学習されます。
論文 参考訳(メタデータ) (2025-04-06T05:30:21Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。