Fugu-MT 論文翻訳(概要): Regret-Free Reinforcement Learning for LTL Specifications

論文の概要: Regret-Free Reinforcement Learning for LTL Specifications

arxiv url: http://arxiv.org/abs/2411.12019v2
Date: Fri, 06 Jun 2025 14:51:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.722579
Title: Regret-Free Reinforcement Learning for LTL Specifications
Title（参考訳）: LTL仕様のためのレグレトフリー強化学習
Authors: Rupak Majumdar, Mahmoud Salamati, Sadegh Soudjani,
Abstract要約: 本稿では,線形時間論理(LTL)仕様を未知の力学系に対して学習する最初のオンラインアルゴリズムを提案する。我々の中心となる技術的成果は、MDP上の無限水平リーチ回避問題に対する後悔のない学習アルゴリズムである。
参考スコア（独自算出の注目度）: 6.342676126028222
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning to control an unknown dynamical system with respect to high-level temporal specifications is an important problem in control theory. We present the first regret-free online algorithm for learning a controller for linear temporal logic (LTL) specifications for systems with unknown dynamics. We assume that the underlying (unknown) dynamics is modeled by a finite-state and action Markov decision process (MDP). Our core technical result is a regret-free learning algorithm for infinite-horizon reach-avoid problems on MDPs. For general LTL specifications, we show that the synthesis problem can be reduced to a reach-avoid problem once the graph structure is known. Additionally, we provide an algorithm for learning the graph structure, assuming knowledge of a minimum transition probability, which operates independently of the main regret-free algorithm. Our LTL controller synthesis algorithm provides sharp bounds on how close we are to achieving optimal behavior after a finite number of learning episodes. In contrast, previous algorithms for LTL synthesis only provide asymptotic guarantees, which give no insight into the transient performance during the learning phase.
Abstract（参考訳）: 高レベルの時間的仕様に関して未知の力学系を制御することを学ぶことは、制御理論において重要な問題である。未知の力学系に対する線形時間論理(LTL)仕様の制御系を学習するための,最初の後悔のないオンラインアルゴリズムを提案する。基礎となる(未知の)力学は有限状態および作用マルコフ決定過程(MDP)によってモデル化されると仮定する。我々の中心となる技術的成果は、MDP上の無限水平リーチ回避問題に対する後悔のない学習アルゴリズムである。一般のLTL仕様では、グラフ構造が知られると、合成問題を到達回避問題に還元できることが示される。さらに,本アルゴリズムとは独立に動作する最小遷移確率の知識を仮定して,グラフ構造を学習するアルゴリズムを提案する。 LTLコントローラ合成アルゴリズムは,有限個の学習エピソードの後に最適な動作を達成するために,どの程度近いかを示す。対照的に、LTL合成の以前のアルゴリズムは漸近的な保証しか提供せず、学習フェーズにおける過渡的な性能についての洞察を与えない。

関連論文リスト

End-to-End Learning Framework for Solving Non-Markovian Optimal Control [9.156265463755807]
本稿では、FOLTIシステムのための革新的なシステム識別方法制御戦略を提案する。また、最初のエンドツーエンドデータ駆動学習フレームワークであるFractional-Order Learning for Optimal Control(FOLOC)も開発しています。
論文参考訳（メタデータ） (2025-02-07T04:18:56Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。本研究では,これらの問題に対処するための新しい学習手法を提案する。提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文参考訳（メタデータ） (2024-08-16T19:52:53Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文参考訳（メタデータ） (2023-10-07T15:07:10Z)
Regularization and Optimal Multiclass Learning [10.168670899305232]
この研究は、経験的リスク最小化が失敗する最も単純な設定における正規化の役割を特徴づけることである。ワンインクルージョングラフ(OIG)を用いて、試行錯誤アルゴリズムの原理に相応しい最適な学習アルゴリズムを示す。
論文参考訳（メタデータ） (2023-09-24T16:49:55Z)
Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文参考訳（メタデータ） (2023-09-10T20:31:25Z)
CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-12T10:16:35Z)
Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文参考訳（メタデータ） (2022-06-06T11:40:46Z)
Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文参考訳（メタデータ） (2022-03-19T13:39:49Z)
Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。時間的高次タスクを完了させるために制約のある最適決定問題を考える。ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-21T00:56:25Z)
Deep Learning Approximation of Diffeomorphisms via Linear-Control Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文参考訳（メタデータ） (2021-10-24T08:57:46Z)
Neural Active Learning with Performance Guarantees [37.16062387461106]
非パラメトリックなレシエーションにおけるストリーミング環境におけるアクティブラーニングの問題について検討する。我々は最近提案されたニューラル・タンジェント・カーネル(NTK)近似ツールを用いて、アルゴリズムが操作する特徴空間と学習したモデルを上から計算する適切なニューラル埋め込みを構築する。
論文参考訳（メタデータ） (2021-06-06T20:44:23Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文参考訳（メタデータ） (2020-11-02T22:43:30Z)
Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文参考訳（メタデータ） (2020-02-29T06:29:19Z)
Towards Neural-Guided Program Synthesis for Linear Temporal Logic Specifications [26.547133495699093]
ニューラルネットワークを用いてQ関数を学習し、探索を誘導し、その後正当性を検証したプログラムを構築する。提案手法は,検索と深層学習を組み合わせることで,合成を実現するのにユニークな手法である。
論文参考訳（メタデータ） (2019-12-31T17:09:49Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。