論文の概要: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.12046v1
- Date: Fri, 12 Dec 2025 21:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.081972
- Title: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning
- Title(参考訳): 等級制約付き階層的擬似強化学習によるゴールリーチ
- Authors: Vittorio Giammarino, Ahmed H. Qureshi,
- Abstract要約: Eikonal-Constrained Quasimetric RL (Eik-QRL) は、Eikonal partial Differential Equation (PDE) に基づく準メトリックRLの連続時間再構成である。
Eik-HiQRLは、オフラインのゴール条件付きナビゲーションにおける最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。
- 参考スコア(独自算出の注目度): 16.84451472788859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-Conditioned Reinforcement Learning (GCRL) mitigates the difficulty of reward design by framing tasks as goal reaching rather than maximizing hand-crafted reward signals. In this setting, the optimal goal-conditioned value function naturally forms a quasimetric, motivating Quasimetric RL (QRL), which constrains value learning to quasimetric mappings and enforces local consistency through discrete, trajectory-based constraints. We propose Eikonal-Constrained Quasimetric RL (Eik-QRL), a continuous-time reformulation of QRL based on the Eikonal Partial Differential Equation (PDE). This PDE-based structure makes Eik-QRL trajectory-free, requiring only sampled states and goals, while improving out-of-distribution generalization. We provide theoretical guarantees for Eik-QRL and identify limitations that arise under complex dynamics. To address these challenges, we introduce Eik-Hierarchical QRL (Eik-HiQRL), which integrates Eik-QRL into a hierarchical decomposition. Empirically, Eik-HiQRL achieves state-of-the-art performance in offline goal-conditioned navigation and yields consistent gains over QRL in manipulation tasks, matching temporal-difference methods.
- Abstract(参考訳): GCRL(Goal-Conditioned Reinforcement Learning)は、手作りの報酬信号の最大化ではなく、目標到達としてタスクをフレーミングすることで、報酬設計の難しさを軽減する。
この設定では、最適ゴール条件付き値関数は自然に準計量的動機付けの準距離 RL (QRL) を形成し、この関数は準距離写像に値学習を制約し、離散的トラジェクトリに基づく制約を通じて局所的な一貫性を強制する。
我々は,固有部分微分方程式(PDE)に基づくQRLの連続的な修正であるEik-QRL(Eik-QRL)を提案する。
このPDEに基づく構造は、Eik-QRL軌道を不要にし、サンプル状態と目標しか必要とせず、アウト・オブ・ディストリビューションの一般化を改善している。
Eik-QRLの理論的保証を提供し、複雑な力学の下で生じる制限を特定する。
これらの課題に対処するために、Eik-QRLを階層分解に統合するEik-HiQRL(Eik-HiQRL)を導入する。
実証的には、Eik-HiQRLはオフラインのゴール条件付きナビゲーションにおいて最先端のパフォーマンスを達成し、時間差法と一致する操作タスクにおいてQRLよりも一貫した利得を得る。
関連論文リスト
- Variational Quantum Circuit-Based Reinforcement Learning for Dynamic Portfolio Optimization [7.349651640835185]
本稿では,変分量子回路に基づく動的ポートフォリオ最適化問題に対する量子強化学習ソリューションを提案する。
我々の量子エージェントは、古典的なディープRLモデルに匹敵するリスク調整性能を達成できることを示す。
論文 参考訳(メタデータ) (2026-01-20T15:17:24Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning [20.424372965054832]
EmphPhysics-informed (Pi) regularized loss for value learning, derived from the Eikonal partial Differential Equation (PDE)。
トレーニングを安定させるために主に用いられる一般的な勾配のペナルティとは異なり、我々の定式化は連続時間最適制御に基礎を置いており、コスト対ゴ構造に整合する値関数を奨励している。
提案した正規化器は時間差に基づく値学習と広く互換性があり、既存のオフラインGCRLアルゴリズムに統合できる。
論文 参考訳(メタデータ) (2025-09-08T15:08:42Z) - Deep Unfolded Local Quantum Annealing [4.726777092009553]
局所量子アニール (LQA) は最適化問題の解法として設計されている。
これは、大域的最小目的関数を決定するために勾配進化を利用するQAからインスピレーションを得ている。
深層展開LQAは元のLQAよりも優れており、実世界のアプリケーションに顕著な洞察と影響を示す。
論文 参考訳(メタデータ) (2024-08-06T08:19:51Z) - SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。
本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。
我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。