論文の概要: Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL
- arxiv url: http://arxiv.org/abs/2605.26371v1
- Date: Mon, 25 May 2026 22:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.493626
- Title: Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL
- Title(参考訳): オフライン階層RLにおける再利用可能なスキルのための局所ダイナミクス規則性の爆発
- Authors: Sarthak Dayal, Abhinav Peri, Carl Qi, Claas Voelcker, Alexander Levine, Caleb Chuck, Amy Zhang,
- Abstract要約: 局所力学の直観を生かした抽象概念に焦点をあてる。
どのスキルを再利用するか、どこで再利用するかを学びます。
この情報は、高レベルのポリシーが使用する低レベルのスキルを判断しなければならない、多くのHRLアルゴリズムに恩恵をもたらすはずだ。
- 参考スコア(独自算出の注目度): 48.61836486848426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) promises to solve long-horizon Reinforcement Learning (RL) tasks more efficiently than non-hierarchical counterparts by discovering and reusing temporally-extended skills. However, obtaining skills that are actually reusable remains an open challenge. Towards this end, we focus on abstractions that exploit the intuition of local dynamics: local transitions in different global contexts require similar kinds of action sequences. By aligning these contexts with the action sequences they require, we are able to learn which skills to reuse and where to reuse them. In principle, this information should benefit many HRL algorithms, where high-level policies have to reason about the low-level skills they use. The resulting algorithm CARL (Contrastive Action-based Representations for Reusable Local Control) shows both qualitative clustering of meaningful skills in complex humanoid environments and improved downstream performance on the OGBench benchmark when integrated with HIQL.
- Abstract(参考訳): 階層強化学習(Hierarchical Reinforcement Learning, HRL)は、時間的拡張スキルの発見と再利用によって、非階層的学習よりもより効率的に、長期強化学習(RL)の課題を解決することを約束する。
しかし、実際に再利用できるスキルを得ることは、依然としてオープンな課題である。
この目的に向けて、我々は局所力学の直観を生かした抽象概念に焦点をあてる: 異なるグローバルな文脈における局所遷移は、同様の種類のアクションシーケンスを必要とする。
これらのコンテキストをそれらが必要とするアクションシーケンスと整合させることで、どのスキルを再利用し、どこで再利用するかを学ぶことができます。
原則として、この情報は、高レベルなポリシーが使用する低レベルなスキルを判断しなければならない多くのHRLアルゴリズムに役立ちます。
得られたアルゴリズム CARL (Contrastive Action-based Representations for Reusable Local Control) は、複雑なヒューマノイド環境で有意義なスキルを定性的にクラスタリングし、HIQLと統合された場合のOGBenchベンチマークのダウンストリーム性能を改善した。
関連論文リスト
- SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Multi-granularity Knowledge Transfer for Continual Reinforcement Learning [10.89257691485739]
連続強化学習(CRL)は、RLエージェントに一連のタスクを学習する能力を与える。
既存の手法は、しばしば類似のタスク間できめ細かい知識の伝達に重点を置いている。
本稿では,大きめの知識伝達を促進するためのMT-Coreという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Granger Causal Interaction Skill Chains [35.143372688036685]
強化学習(Reinforcement Learning, RL)は複雑なタスクの学習方針において有望な結果を示してきたが、しばしばサンプル効率の低下と限られた伝達性に悩まされる。
このアルゴリズムは、ドメイン内の制御性に着目し、高い制御を許す少数のタスクに依存しないスキルを識別する。
また、一般的なRLベンチマークであるBreakoutの変種を用いて、COInSが学習したスキルの伝達性を実証し、標準のRLベースラインと比較してサンプル効率と最終性能を2~3倍改善したことを示す。
論文 参考訳(メタデータ) (2023-06-15T21:06:54Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。