論文の概要: Accelerated Learning with Linear Temporal Logic using Differentiable Simulation
- arxiv url: http://arxiv.org/abs/2506.01167v1
- Date: Sun, 01 Jun 2025 20:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.26122
- Title: Accelerated Learning with Linear Temporal Logic using Differentiable Simulation
- Title(参考訳): 微分可能シミュレーションを用いた線形時間論理による加速学習
- Authors: Alper Kamil Bozkurt, Calin Belta, Ming C. Lin,
- Abstract要約: 国家の回避やマルコフ決定プロセスのような伝統的な安全保証アプローチは、しばしば軌道要求を不適切に捉えている。
本稿では,特定可能なシミュレータと統合した最初の手法を提案する。
本手法では, 客観的な正当性を損なうことなく, スパース・リワード問題を本質的に緩和し, 相異なる報酬と状態を得るためのソフトラベリングを導入する。
- 参考スコア(独自算出の注目度): 21.84092672461171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To ensure learned controllers comply with safety and reliability requirements for reinforcement learning in real-world settings remains challenging. Traditional safety assurance approaches, such as state avoidance and constrained Markov decision processes, often inadequately capture trajectory requirements or may result in overly conservative behaviors. To address these limitations, recent studies advocate the use of formal specification languages such as linear temporal logic (LTL), enabling the derivation of correct-by-construction learning objectives from the specified requirements. However, the sparse rewards associated with LTL specifications make learning extremely difficult, whereas dense heuristic-based rewards risk compromising correctness. In this work, we propose the first method, to our knowledge, that integrates LTL with differentiable simulators, facilitating efficient gradient-based learning directly from LTL specifications by coupling with differentiable paradigms. Our approach introduces soft labeling to achieve differentiable rewards and states, effectively mitigating the sparse-reward issue intrinsic to LTL without compromising objective correctness. We validate the efficacy of our method through experiments, demonstrating significant improvements in both reward attainment and training time compared to the discrete methods.
- Abstract(参考訳): 実環境における強化学習の安全性と信頼性の要件を満たすために、学習コントローラは依然として困難である。
国家の回避やマルコフ決定プロセスのような伝統的な安全保証アプローチは、しばしば軌道の要求を不十分に捉えたり、過度に保守的な行動を引き起こす可能性がある。
これらの制約に対処するため、近年の研究では、線形時間論理(LTL)のような形式的な仕様言語の使用を提唱している。
しかし、LTL仕様に関連するスパース報酬は学習を非常に難しくする一方、密集したヒューリスティックベースの報酬は正しさを損なうリスクがある。
本研究では,LTLを微分可能シミュレータと統合し,微分可能パラダイムと結合することで,LTL仕様から直接の勾配に基づく効率的な学習を容易にする手法を提案する。
本手法では, 客観的な正当性を損なうことなく, LTLに固有のスパース・リワード問題を効果的に緩和する。
提案手法の有効性を実験により検証し,個別手法と比較して,報酬獲得時間とトレーニング時間の両方において有意な改善が認められた。
関連論文リスト
- Certified Approximate Reachability (CARe): Formal Error Bounds on Deep Learning of Reachable Sets [45.67587657709892]
我々は, 真の到達可能な集合のトレーニング損失と精度の関係を確立するための, エプシロン近似ハミルトン-ヤコビ偏微分方程式(HJ-PDE)を導入する。
我々の知識を最大限に活用するために、CARe(Certified Approximate Reachability)は、学習された連続力学系の到達可能な集合に音質を保証するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-03-31T10:02:57Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - LTLDoG: Satisfying Temporally-Extended Symbolic Constraints for Safe Diffusion-based Planning [12.839846486863308]
本研究では,新しい静的かつ時間的に拡張された制約/命令に準拠する長い水平軌道を生成することに焦点を当てる。
本稿では、線形時間論理を用いて指定された命令を与えられた逆プロセスの推論ステップを変更する、データ駆動拡散に基づくフレームワーク、 finiteDoGを提案する。
ロボットナビゲーションと操作の実験では、障害物回避と訪問シーケンスを指定する公式を満たす軌道を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T11:54:22Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。