論文の概要: Offline Goal-conditioned Reinforcement Learning with Quasimetric Representations
- arxiv url: http://arxiv.org/abs/2509.20478v1
- Date: Wed, 24 Sep 2025 18:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.542723
- Title: Offline Goal-conditioned Reinforcement Learning with Quasimetric Representations
- Title(参考訳): 擬似表現を用いたオフラインゴール条件強化学習
- Authors: Vivek Myers, Bill Chunyuan Zheng, Benjamin Eysenbach, Sergey Levine,
- Abstract要約: 目標条件強化学習(GCRL)へのアプローチは、しばしば学習状態表現を用いて目標達成ポリシーを抽出する。
本稿では,この2つのフレームワークを,準計量表現空間(三角不等式)の構造と適切な追加制約を用いて統合し,最適ゴール獲得を可能にする後続表現を学習する手法を提案する。
提案手法は,* 準距離パラメータ化を用いて,* 準距離* と * 準距離* を学習し,* 準距離* と *stochastic* の環境においても,* 準距離* を学習することができる。
- 参考スコア(独自算出の注目度): 72.24831946301613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approaches for goal-conditioned reinforcement learning (GCRL) often use learned state representations to extract goal-reaching policies. Two frameworks for representation structure have yielded particularly effective GCRL algorithms: (1) *contrastive representations*, in which methods learn "successor features" with a contrastive objective that performs inference over future outcomes, and (2) *temporal distances*, which link the (quasimetric) distance in representation space to the transit time from states to goals. We propose an approach that unifies these two frameworks, using the structure of a quasimetric representation space (triangle inequality) with the right additional constraints to learn successor representations that enable optimal goal-reaching. Unlike past work, our approach is able to exploit a **quasimetric** distance parameterization to learn **optimal** goal-reaching distances, even with **suboptimal** data and in **stochastic** environments. This gives us the best of both worlds: we retain the stability and long-horizon capabilities of Monte Carlo contrastive RL methods, while getting the free stitching capabilities of quasimetric network parameterizations. On existing offline GCRL benchmarks, our representation learning objective improves performance on stitching tasks where methods based on contrastive learning struggle, and on noisy, high-dimensional environments where methods based on quasimetric networks struggle.
- Abstract(参考訳): 目標条件強化学習(GCRL)へのアプローチは、しばしば学習状態表現を用いて目標達成ポリシーを抽出する。
表現構造のための2つのフレームワークは特に有効なGCRLアルゴリズムを生み出している: (1) コントラスト表現*、(1) メソッドが将来の結果に対する推論を行う対照的な目的で「successor features」を学習する、(2) 時間距離*、(2) 表現空間における(準)距離と状態から目標への遷移時間とをリンクする。
本稿では,この2つのフレームワークを,準計量表現空間(三角不等式)の構造と適切な追加制約を用いて統合し,最適ゴール獲得を可能にする後続表現を学習する手法を提案する。
過去の研究とは異なり、我々の手法は**準距離パラメータ化を利用して**最適化**目標到達距離を学習することができる。
モンテカルロのコントラスト的RL法の安定性と長期水平性を維持しながら、擬似ネットワークパラメータ化の自由な縫合能力を得る。
既存のオフラインGCRLベンチマークでは,コントラスト学習に苦しむ手法を用いた縫合作業や,擬似ネットワークに基づく手法が苦しむノイズの多い高次元環境において,表現学習の目的により性能が向上する。
関連論文リスト
- Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-22T01:13:45Z) - Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。
RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文 参考訳(メタデータ) (2025-05-03T04:58:29Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。