論文の概要: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.12046v1
- Date: Fri, 12 Dec 2025 21:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.081972
- Title: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning
- Title(参考訳): 等級制約付き階層的擬似強化学習によるゴールリーチ
- Authors: Vittorio Giammarino, Ahmed H. Qureshi,
- Abstract要約: Eikonal-Constrained Quasimetric RL (Eik-QRL) は、Eikonal partial Differential Equation (PDE) に基づく準メトリックRLの連続時間再構成である。
Eik-HiQRLは、オフラインのゴール条件付きナビゲーションにおける最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。
- 参考スコア(独自算出の注目度): 16.84451472788859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-Conditioned Reinforcement Learning (GCRL) mitigates the difficulty of reward design by framing tasks as goal reaching rather than maximizing hand-crafted reward signals. In this setting, the optimal goal-conditioned value function naturally forms a quasimetric, motivating Quasimetric RL (QRL), which constrains value learning to quasimetric mappings and enforces local consistency through discrete, trajectory-based constraints. We propose Eikonal-Constrained Quasimetric RL (Eik-QRL), a continuous-time reformulation of QRL based on the Eikonal Partial Differential Equation (PDE). This PDE-based structure makes Eik-QRL trajectory-free, requiring only sampled states and goals, while improving out-of-distribution generalization. We provide theoretical guarantees for Eik-QRL and identify limitations that arise under complex dynamics. To address these challenges, we introduce Eik-Hierarchical QRL (Eik-HiQRL), which integrates Eik-QRL into a hierarchical decomposition. Empirically, Eik-HiQRL achieves state-of-the-art performance in offline goal-conditioned navigation and yields consistent gains over QRL in manipulation tasks, matching temporal-difference methods.
- Abstract(参考訳): GCRL(Goal-Conditioned Reinforcement Learning)は、手作りの報酬信号の最大化ではなく、目標到達としてタスクをフレーミングすることで、報酬設計の難しさを軽減する。
この設定では、最適ゴール条件付き値関数は自然に準計量的動機付けの準距離 RL (QRL) を形成し、この関数は準距離写像に値学習を制約し、離散的トラジェクトリに基づく制約を通じて局所的な一貫性を強制する。
我々は,固有部分微分方程式(PDE)に基づくQRLの連続的な修正であるEik-QRL(Eik-QRL)を提案する。
このPDEに基づく構造は、Eik-QRL軌道を不要にし、サンプル状態と目標しか必要とせず、アウト・オブ・ディストリビューションの一般化を改善している。
Eik-QRLの理論的保証を提供し、複雑な力学の下で生じる制限を特定する。
これらの課題に対処するために、Eik-QRLを階層分解に統合するEik-HiQRL(Eik-HiQRL)を導入する。
実証的には、Eik-HiQRLはオフラインのゴール条件付きナビゲーションにおいて最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。
関連論文リスト
- Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。