論文の概要: Unifying Goal-Conditioned RL and Unsupervised Skill Learning via Control-Maximization
- arxiv url: http://arxiv.org/abs/2605.06145v1
- Date: Thu, 07 May 2026 12:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.781793
- Title: Unifying Goal-Conditioned RL and Unsupervised Skill Learning via Control-Maximization
- Title(参考訳): ゴールコンディション付きRLと制御最大化による教師なしスキル学習の統一
- Authors: Alireza Modirshanechi, Benjamin Eysenbach, Peter Dayan, Eric Schulz,
- Abstract要約: 目標条件強化学習(GCRL)における教師なし事前訓練による経験的進歩
特に、相互情報スキル学習(MISL)と呼ばれる影響力のある手法のクラスは、後に下流のゴール獲得に使用できる行動的に多様なスキルを発見する。
MISLで学んだスキルが目標達成をサポートするのは、理論的なミステリーである。
- 参考スコア(独自算出の注目度): 41.30196546270599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised pretraining has driven empirical advances in goal-conditioned reinforcement learning (GCRL), but its theoretical foundations remain poorly understood. In particular, an influential class of methods, mutual information skill learning (MISL), discovers behaviorally diverse skills that can later be used for downstream goal-reaching. However, it remains a theoretical mystery why skills learned through MISL should support goal-reaching. A subtle challenge is that both GCRL and MISL are umbrella terms: different GCRL tasks use distinct criteria for measuring goal-reaching performance, while different MISL methods optimize distinct notions of behavioral diversity. We address this challenge and unify GCRL and MISL as instances of control maximization. We identify three canonical GCRL formulations and prove that they are fundamentally inequivalent: they can induce incompatible optimal policies even in the same environment. Nevertheless, they all share a common interpretation: a well-performing goal-conditioned policy is one whose future trajectory is highly sensitive to the commanded goal, with the precise notion of sensitivity determined by the GCRL formulation. Noting that MISL objectives can be understood as measures of skill-sensitivity akin to goal-sensitivity, we show that MISL objectives are bounded by formulation-specific downstream goal-sensitivities. These bounds establish a precise correspondence between MISL methods and downstream GCRL tasks: for every GCRL formulation, there exists a matching MISL objective for which more diverse skills afford greater downstream goal sensitivity. Our results thus lay a theoretical foundation for RL pretraining and have important practical implications, such as suggesting which pretraining objectives to use when a user cares about a specific class of downstream tasks.
- Abstract(参考訳): 教師なし事前訓練は、ゴール条件強化学習(GCRL)において経験的な進歩をもたらしたが、その理論的基礎は未だよく分かっていない。
特に、相互情報スキル学習(MISL)と呼ばれる影響力のある手法のクラスは、後に下流のゴール獲得に使用できる行動的に多様なスキルを発見する。
しかし、MISLで学んだスキルが目標達成をサポートするのは、理論的なミステリーである。
微妙な課題は、GCRLとMISLの両方が包括的用語であることである。異なるGCRLタスクは目標達成性能の異なる基準を使用し、異なるMISLメソッドは行動多様性の異なる概念を最適化する。
この課題に対処し、制御最大化の事例としてGCRLとMISLを統一する。
3つの標準GCRLの定式化を同定し、それらが基本的に等価でないことを証明する。
目標条件付きポリシーは、将来の軌道が指示された目標に非常に敏感であり、GCRLの定式化によって決定される感度の正確な概念である。
また,MISLの目的が,目標感度に類似したスキルセンシティブな尺度として理解できることから,MISLの目的が定式化固有の下流目標感性によって境界づけられていることが示唆された。
これらの境界は、MISL法と下流GCRLタスクの正確な対応を確立し、全てのGCRL定式化に対して、より多様なスキルがより下流の目標感度を高めるMISL目標が存在する。
以上の結果から,ユーザが特定の下流タスクに気を配る場合に,どの事前学習目標を使用するかを示唆するなど,RL事前学習の理論的基盤を築き,重要な実践的意味を持つことがわかった。
関連論文リスト
- Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning [14.62474759939562]
Skill-aware Mutual Information (SaMI) は,スキルに応じたコンテキスト埋め込みの識別を支援する最適化目的である。
そこで我々は,SaMIの目的を最適化するための$K$sample推定器であるSkill-aware Noise Contrastive Estimation (SaNCE)を提案する。
SMIを最大化することで学習するRLエージェントが、目に見えないタスクに対して、ゼロショットの一般化を大幅に改善できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-07T10:35:29Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Rethinking Goal-conditioned Supervised Learning and Its Connection to
Offline RL [49.26825108780872]
Goal-Conditioned Supervised Learning (GCSL)は、自己生成体験を反復的に再現して、新たな学習フレームワークを提供する。
我々はGCSLを新しいオフラインゴール条件付きRLアルゴリズムとして拡張する。
WGCSLはGCSLと既存の最先端のオフラインメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2022-02-09T14:17:05Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。