Fugu-MT 論文翻訳(概要): Accelerated Learning with Linear Temporal Logic using Differentiable Simulation

論文の概要: Accelerated Learning with Linear Temporal Logic using Differentiable Simulation

arxiv url: http://arxiv.org/abs/2506.01167v1
Date: Sun, 01 Jun 2025 20:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.26122
Title: Accelerated Learning with Linear Temporal Logic using Differentiable Simulation
Title（参考訳）: 微分可能シミュレーションを用いた線形時間論理による加速学習
Authors: Alper Kamil Bozkurt, Calin Belta, Ming C. Lin,
Abstract要約: 国家の回避やマルコフ決定プロセスのような伝統的な安全保証アプローチは、しばしば軌道要求を不適切に捉えている。本稿では,特定可能なシミュレータと統合した最初の手法を提案する。本手法では, 客観的な正当性を損なうことなく, スパース・リワード問題を本質的に緩和し, 相異なる報酬と状態を得るためのソフトラベリングを導入する。
参考スコア（独自算出の注目度）: 21.84092672461171
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To ensure learned controllers comply with safety and reliability requirements for reinforcement learning in real-world settings remains challenging. Traditional safety assurance approaches, such as state avoidance and constrained Markov decision processes, often inadequately capture trajectory requirements or may result in overly conservative behaviors. To address these limitations, recent studies advocate the use of formal specification languages such as linear temporal logic (LTL), enabling the derivation of correct-by-construction learning objectives from the specified requirements. However, the sparse rewards associated with LTL specifications make learning extremely difficult, whereas dense heuristic-based rewards risk compromising correctness. In this work, we propose the first method, to our knowledge, that integrates LTL with differentiable simulators, facilitating efficient gradient-based learning directly from LTL specifications by coupling with differentiable paradigms. Our approach introduces soft labeling to achieve differentiable rewards and states, effectively mitigating the sparse-reward issue intrinsic to LTL without compromising objective correctness. We validate the efficacy of our method through experiments, demonstrating significant improvements in both reward attainment and training time compared to the discrete methods.
Abstract（参考訳）: 実環境における強化学習の安全性と信頼性の要件を満たすために、学習コントローラは依然として困難である。国家の回避やマルコフ決定プロセスのような伝統的な安全保証アプローチは、しばしば軌道の要求を不十分に捉えたり、過度に保守的な行動を引き起こす可能性がある。これらの制約に対処するため、近年の研究では、線形時間論理(LTL)のような形式的な仕様言語の使用を提唱している。しかし、LTL仕様に関連するスパース報酬は学習を非常に難しくする一方、密集したヒューリスティックベースの報酬は正しさを損なうリスクがある。本研究では,LTLを微分可能シミュレータと統合し,微分可能パラダイムと結合することで,LTL仕様から直接の勾配に基づく効率的な学習を容易にする手法を提案する。本手法では, 客観的な正当性を損なうことなく, LTLに固有のスパース・リワード問題を効果的に緩和する。提案手法の有効性を実験により検証し,個別手法と比較して,報酬獲得時間とトレーニング時間の両方において有意な改善が認められた。

関連論文リスト

Efficient Uncertainty in LLMs through Evidential Knowledge Distillation [3.864321514889099]
性能を犠牲にすることなく,LLMの効率的かつ効果的な不確実性評価を可能にする新しい手法を提案する。我々は、不確実性を考慮した教師モデルを、同じアーキテクチャを共有するコンパクトな学生モデルに蒸留するが、Lo-Rank Adaptation (LoRA)を用いて微調整する。分類データセットに関する実証的な評価は、そのような学生が同等または優れた予測的・不確実性定量化性能を達成できることを証明している。
論文参考訳（メタデータ） (2025-07-24T12:46:40Z)
Certified Approximate Reachability (CARe): Formal Error Bounds on Deep Learning of Reachable Sets [45.67587657709892]
我々は, 真の到達可能な集合のトレーニング損失と精度の関係を確立するための, エプシロン近似ハミルトン-ヤコビ偏微分方程式(HJ-PDE)を導入する。我々の知識を最大限に活用するために、CARe(Certified Approximate Reachability)は、学習された連続力学系の到達可能な集合に音質を保証するための最初のアプローチである。
論文参考訳（メタデータ） (2025-03-31T10:02:57Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。既存のアプローチにはいくつかの欠点がある。これらの問題に対処するための新しい学習手法を提案する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。 VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2024-06-03T17:25:18Z)
LTLDoG: Satisfying Temporally-Extended Symbolic Constraints for Safe Diffusion-based Planning [12.839846486863308]
本研究では,新しい静的かつ時間的に拡張された制約/命令に準拠する長い水平軌道を生成することに焦点を当てる。本稿では、線形時間論理を用いて指定された命令を与えられた逆プロセスの推論ステップを変更する、データ駆動拡散に基づくフレームワーク、 finiteDoGを提案する。ロボットナビゲーションと操作の実験では、障害物回避と訪問シーケンスを指定する公式を満たす軌道を生成することができる。
論文参考訳（メタデータ） (2024-05-07T11:54:22Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文参考訳（メタデータ） (2023-06-04T18:14:18Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。