論文の概要: Multistep Quasimetric Learning for Scalable Goal-conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.07730v2
- Date: Fri, 14 Nov 2025 08:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:01.883502
- Title: Multistep Quasimetric Learning for Scalable Goal-conditioned Reinforcement Learning
- Title(参考訳): スケーラブルゴール条件強化学習のための多段階準メトリック学習
- Authors: Bill Chunyuan Zheng, Vivek Myers, Benjamin Eysenbach, Sergey Levine,
- Abstract要約: 主な問題は、観測のペア間の時間的距離をどのように見積もるかである。
これらの手法を,擬似距離に適合する実用的なGCRL法にどのように組み込むかを示す。
また,本手法は実世界のロボット操作領域で縫合できることを示す。
- 参考スコア(独自算出の注目度): 72.24831946301613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning how to reach goals in an environment is a longstanding challenge in AI, yet reasoning over long horizons remains a challenge for modern methods. The key question is how to estimate the temporal distance between pairs of observations. While temporal difference methods leverage local updates to provide optimality guarantees, they often perform worse than Monte Carlo methods that perform global updates (e.g., with multi-step returns), which lack such guarantees. We show how these approaches can be integrated into a practical GCRL method that fits a quasimetric distance using a multistep Monte-Carlo return. We show our method outperforms existing GCRL methods on long-horizon simulated tasks with up to 4000 steps, even with visual observations. We also demonstrate that our method can enable stitching in the real-world robotic manipulation domain (Bridge setup). Our approach is the first end-to-end GCRL method that enables multistep stitching in this real-world manipulation domain from an unlabeled offline dataset of visual observations.
- Abstract(参考訳): 環境における目標を達成する方法を学ぶことは、AIの長年の課題ですが、しかしながら、長い地平線を越えて推論することは、現代的な方法の課題です。
鍵となる問題は、観測のペア間の時間的距離をどのように見積もるかである。
時間差分法は局所的な更新を利用して最適性を保証するが、グローバルな更新を行うモンテカルロ法(例えば、マルチステップのリターンを持つ)よりも悪い場合が多い。
多段モンテカルロリターンを用いて, 擬似距離に適合する実用的GCRL法にこれらの手法を組み込む方法を示す。
本手法は, 視覚的観察においても, 最大4000ステップの時間軸シミュレーションタスクにおいて, 既存のGCRL法よりも優れることを示す。
また,本手法は実世界のロボット操作領域(ブリッジ・セットアップ)で縫合できることを示す。
我々のアプローチは、実世界の操作領域において、ラベルなしのオフラインな視覚観測データセットから複数ステップの縫合を可能にする最初のエンドツーエンドのGCRL手法である。
関連論文リスト
- Offline Goal-conditioned Reinforcement Learning with Quasimetric Representations [72.24831946301613]
目標条件強化学習(GCRL)へのアプローチは、しばしば学習状態表現を用いて目標達成ポリシーを抽出する。
本稿では,この2つのフレームワークを,準計量表現空間(三角不等式)の構造と適切な追加制約を用いて統合し,最適ゴール獲得を可能にする後続表現を学習する手法を提案する。
提案手法は,* 準距離パラメータ化を用いて,* 準距離* と * 準距離* を学習し,* 準距離* と *stochastic* の環境においても,* 準距離* を学習することができる。
論文 参考訳(メタデータ) (2025-09-24T18:45:32Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。