Fugu-MT 論文翻訳(概要): Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning

論文の概要: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning

arxiv url: http://arxiv.org/abs/2512.12046v1
Date: Fri, 12 Dec 2025 21:37:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-16 17:54:56.081972
Title: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning
Title（参考訳）: 等級制約付き階層的擬似強化学習によるゴールリーチ
Authors: Vittorio Giammarino, Ahmed H. Qureshi,
Abstract要約: Eikonal-Constrained Quasimetric RL (Eik-QRL) は、Eikonal partial Differential Equation (PDE) に基づく準メトリックRLの連続時間再構成である。 Eik-HiQRLは、オフラインのゴール条件付きナビゲーションにおける最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。
参考スコア（独自算出の注目度）: 16.84451472788859
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Goal-Conditioned Reinforcement Learning (GCRL) mitigates the difficulty of reward design by framing tasks as goal reaching rather than maximizing hand-crafted reward signals. In this setting, the optimal goal-conditioned value function naturally forms a quasimetric, motivating Quasimetric RL (QRL), which constrains value learning to quasimetric mappings and enforces local consistency through discrete, trajectory-based constraints. We propose Eikonal-Constrained Quasimetric RL (Eik-QRL), a continuous-time reformulation of QRL based on the Eikonal Partial Differential Equation (PDE). This PDE-based structure makes Eik-QRL trajectory-free, requiring only sampled states and goals, while improving out-of-distribution generalization. We provide theoretical guarantees for Eik-QRL and identify limitations that arise under complex dynamics. To address these challenges, we introduce Eik-Hierarchical QRL (Eik-HiQRL), which integrates Eik-QRL into a hierarchical decomposition. Empirically, Eik-HiQRL achieves state-of-the-art performance in offline goal-conditioned navigation and yields consistent gains over QRL in manipulation tasks, matching temporal-difference methods.
Abstract（参考訳）: GCRL(Goal-Conditioned Reinforcement Learning)は、手作りの報酬信号の最大化ではなく、目標到達としてタスクをフレーミングすることで、報酬設計の難しさを軽減する。この設定では、最適ゴール条件付き値関数は自然に準計量的動機付けの準距離 RL (QRL) を形成し、この関数は準距離写像に値学習を制約し、離散的トラジェクトリに基づく制約を通じて局所的な一貫性を強制する。我々は,固有部分微分方程式(PDE)に基づくQRLの連続的な修正であるEik-QRL(Eik-QRL)を提案する。このPDEに基づく構造は、Eik-QRL軌道を不要にし、サンプル状態と目標しか必要とせず、アウト・オブ・ディストリビューションの一般化を改善している。 Eik-QRLの理論的保証を提供し、複雑な力学の下で生じる制限を特定する。これらの課題に対処するために、Eik-QRLを階層分解に統合するEik-HiQRL(Eik-HiQRL)を導入する。実証的には、Eik-HiQRLはオフラインのゴール条件付きナビゲーションにおいて最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。

論文の概要: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning

関連論文リスト