論文の概要: Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning
- arxiv url: http://arxiv.org/abs/2506.18847v1
- Date: Mon, 23 Jun 2025 17:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.097372
- Title: Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning
- Title(参考訳): プロジェクティブ擬似計画を用いたオフラインゴール・コンディション強化学習
- Authors: Anthony Kobanda, Waris Radji, Mathieu Petitbois, Odalric-Ambrym Maillard, Rémy Portelas,
- Abstract要約: 非対称な距離を学習し、それを再利用する構成的枠組みである射影準距離計画(ProQ)を導入する。
メカニカルラーニング、キーポイントカバレッジ、ゴール条件制御を統一することにより、我々のアプローチは意味のあるサブゴールを生成し、長期目標達成を強力に推進する。
- 参考スコア(独自算出の注目度): 12.143238548217607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Goal-Conditioned Reinforcement Learning seeks to train agents to reach specified goals from previously collected trajectories. Scaling that promises to long-horizon tasks remains challenging, notably due to compounding value-estimation errors. Principled geometric offers a potential solution to address these issues. Following this insight, we introduce Projective Quasimetric Planning (ProQ), a compositional framework that learns an asymmetric distance and then repurposes it, firstly as a repulsive energy forcing a sparse set of keypoints to uniformly spread over the learned latent space, and secondly as a structured directional cost guiding towards proximal sub-goals. In particular, ProQ couples this geometry with a Lagrangian out-of-distribution detector to ensure the learned keypoints stay within reachable areas. By unifying metric learning, keypoint coverage, and goal-conditioned control, our approach produces meaningful sub-goals and robustly drives long-horizon goal-reaching on diverse a navigation benchmarks.
- Abstract(参考訳): オフラインのゴール・コンディション強化学習は、以前収集された軌道から特定の目標に到達するようにエージェントを訓練することを目指している。
長期的なタスクを約束するスケーリングは、特に価値推定エラーを複雑にしているため、依然として困難である。
原理幾何学はこれらの問題に対処するための潜在的な解決策を提供する。
本稿では,非対称距離を学習し,次にそれを再利用する構成的枠組みである射影準距離計画(ProQ)について紹介する。
特にProQは、この幾何学をラグランジアン分布検出器と組み合わせて、学習されたキーポイントが到達可能な領域に留まることを保証している。
メカニカルラーニング,キーポイントカバレッジ,目標条件付き制御を統一することにより,本手法は有意義なサブゴールを生成し,多様なナビゲーションベンチマーク上で長期目標達成を強力に推進する。
関連論文リスト
- Flattening Hierarchies with Policy Bootstrapping [2.3940819037450987]
本稿では,重み付けされた重要度サンプリングを施したサブゴール条件ポリシをブートストラップすることで,フラットな(階層的でない)目標条件ポリシーをトレーニングするアルゴリズムを提案する。
提案手法は,大規模状態空間における高次元制御へのスケーリングの鍵となる(部分)ゴール空間上の生成モデルの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-20T23:31:30Z) - Goal-Conditioned Supervised Learning for Multi-Objective Recommendation [8.593384839118658]
多目的学習は、一つのモデルを用いて複数の目的を同時に最適化する。
本稿では,オフラインシーケンシャルデータから複数の目標を自動学習する多目的目標定義型監視学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T03:47:40Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z) - Maximum Entropy Gain Exploration for Long Horizon Multi-goal
Reinforcement Learning [35.44552072132894]
学習エージェントは、歴史的達成目標分布のエントロピーを最大化する固有の目標を設定するべきである。
本研究の戦略は, 長期多目標課題における先行技術よりも, はるかに優れたサンプリング効率を達成できることが示される。
論文 参考訳(メタデータ) (2020-07-06T15:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。