論文の概要: Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.06782v1
- Date: Mon, 08 Sep 2025 15:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.207981
- Title: Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning
- Title(参考訳): オフラインゴール・コンディション強化学習のための物理インフォームド値学習装置
- Authors: Vittorio Giammarino, Ruiqi Ni, Ahmed H. Qureshi,
- Abstract要約: 固有偏微分方程式(PDE)から導いた値学習のための物理インフォームド(Pi)正規化損失を提案する。
我々の定式化は、連続時間最適制御に基礎を置いており、値関数がコスト・ツー・ゴー構造と整合することを奨励している。
Hierarchical Implicit Q-Learning (HIQL)と組み合わせると、この手法は性能と一般化の両方に大きな改善をもたらす。
- 参考スコア(独自算出の注目度): 20.424372965054832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Goal-Conditioned Reinforcement Learning (GCRL) holds great promise for domains such as autonomous navigation and locomotion, where collecting interactive data is costly and unsafe. However, it remains challenging in practice due to the need to learn from datasets with limited coverage of the state-action space and to generalize across long-horizon tasks. To improve on these challenges, we propose a Physics-informed (Pi) regularized loss for value learning, derived from the Eikonal Partial Differential Equation (PDE) and which induces a geometric inductive bias in the learned value function. Unlike generic gradient penalties that are primarily used to stabilize training, our formulation is grounded in continuous-time optimal control and encourages value functions to align with cost-to-go structures. The proposed regularizer is broadly compatible with temporal-difference-based value learning and can be integrated into existing Offline GCRL algorithms. When combined with Hierarchical Implicit Q-Learning (HIQL), the resulting method, Physics-informed HIQL (Pi-HIQL), yields significant improvements in both performance and generalization, with pronounced gains in stitching regimes and large-scale navigation tasks.
- Abstract(参考訳): オフラインのゴール・コンディション強化学習(GCRL)は、自律的なナビゲーションや移動といったドメインに対して、対話的なデータの収集に費用がかかり安全ではない、という大きな約束を持っています。
しかし、状態アクション空間の限られた範囲でデータセットから学習し、長い水平タスクをまたいで一般化する必要があるため、実際は難しいままである。
これらの課題を改善するために,Eykonal partial Differential Equation (PDE) から導かれる値学習のための物理インフォームド(Pi)正規化損失を提案し,学習値関数の幾何学的帰納バイアスを誘導する。
トレーニングを安定させるために主に用いられる一般的な勾配のペナルティとは異なり、我々の定式化は連続時間最適制御に基礎を置いており、コスト対ゴ構造に整合する値関数を奨励している。
提案した正規化器は時間差に基づく値学習と広く互換性があり、既存のオフラインGCRLアルゴリズムに統合できる。
HiQL(Hierarchical Implicit Q-Learning)と組み合わせると、結果として得られる物理インフォームドHIQL(Pi-HIQL)はパフォーマンスと一般化の両方において大幅に改善され、縫合系や大規模ナビゲーションタスクでは顕著に向上した。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Accelerated Learning with Linear Temporal Logic using Differentiable Simulation [21.84092672461171]
国家の回避やマルコフ決定プロセスのような伝統的な安全保証アプローチは、しばしば軌道要求を不適切に捉えている。
本稿では,特定可能なシミュレータと統合した最初の手法を提案する。
本手法では, 客観的な正当性を損なうことなく, スパース・リワード問題を本質的に緩和し, 相異なる報酬と状態を得るためのソフトラベリングを導入する。
論文 参考訳(メタデータ) (2025-06-01T20:59:40Z) - Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [15.902089688167871]
オフライン目標条件強化学習(GCRL)は、豊富なラベルなしデータセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
我々は,時間差学習プロセスに時間的抽象化を組み込んだ,OTAと呼ばれるオプション対応の時間的抽象価値学習を提案する。
OTAを用いて抽出した高レベルポリシーは,OGBenchの複雑なタスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2025-05-19T05:51:11Z) - GRU: Mitigating the Trade-off between Unlearning and Retention for LLMs [34.90826139012299]
非学習過程における更新の方向を規定する改良されたフレームワークであるグラデーション・リクティファイド・アンラーニング(GRU)を提案する。
GRUは簡単に実装でき、様々な確立された未学習ベンチマークで実践的な効果を示す。
論文 参考訳(メタデータ) (2025-03-12T07:08:54Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。