論文の概要: Abstraction for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.22711v1
- Date: Thu, 21 May 2026 16:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.350924
- Title: Abstraction for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): オフラインゴール・コンディション強化学習のための抽象化
- Authors: Clarisse Wibault, Alexander Goldie, Antonio Villares, Maike Osborne, Jakob Foerster,
- Abstract要約: 本稿では、相対化オプションを学習し、絶対的な参照フレームから抽象化するアルゴリズムを2つ導入する。
実験の結果,このような帰納バイアスはオフラインのゴール・コンディション強化学習のパフォーマンスを著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 40.88972158563976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov Decision Processes (MDPs) often exhibit significant redundancy due to symmetries and shared structure across state-goal pairs in real-world Goal-Conditioned Reinforcement Learning (GCRL). While hierarchical policies have been motivated for horizon reduction via temporal abstraction in offline GCRL, we demonstrate that hierarchy also enables absolute abstraction. By introducing relativised options as well as distinct representations for different levels of the hierarchy, we demonstrate how an agent can reuse experience across similar contexts of the state-space. Based on this framework, we introduce two simple algorithms for learning relativised options and abstracting from the absolute frame of reference. Our experiments show that such inductive biases significantly improve performance in offline GCRL.
- Abstract(参考訳): マルコフ決定過程(MDP)は、実世界のゴール・コンディション強化学習(GCRL)において、状態-ゴールペア間の対称性と共有構造により、しばしば顕著な冗長性を示す。
階層的ポリシーは、オフラインGCRLにおける時間的抽象化による地平線の縮小を動機としているが、階層構造が絶対的な抽象化を可能にすることを示す。
階層の異なるレベルに対する異なる表現と同様に、相対化されたオプションを導入することで、エージェントが状態空間の同様のコンテキストでどのように経験を再利用できるかを実証する。
この枠組みに基づいて、相対化された選択肢を学習し、絶対的な参照フレームから抽象化する2つの簡単なアルゴリズムを導入する。
実験の結果,このような誘導バイアスはオフラインGCRLの性能を著しく向上させることがわかった。
関連論文リスト
- Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Decoupled Hierarchical Reinforcement Learning with State Abstraction for Discrete Grids [3.772834044395258]
本稿では、状態抽象化(DcHRL-SA)を統合した分離階層型RLフレームワークを提案する。
2つのグリッド環境における実験により,提案手法は探索効率,収束速度,累積報酬,政策安定性においてPPOを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-06-01T06:36:19Z) - Behaviour Discovery and Attribution for Explainable Reinforcement Learning [6.123880364445758]
強化学習(RL)エージェントへの信頼を構築するには、なぜ特定の決定を下すのかを理解する必要がある。
既存の説明可能性の手法は、しばしば単一状態または全軌道に焦点をあてる。
動作発見とセグメンテーションのための完全にオフラインで報酬のないフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T08:06:00Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation [2.2265038612930663]
本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。
我々は、複数のスケールから機能のコントリビューションのバランスをとるためのトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。
論文 参考訳(メタデータ) (2024-01-12T09:47:17Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。