Fugu-MT 論文翻訳(概要): Policy Synthesis and Reinforcement Learning for Discounted LTL

論文の概要: Policy Synthesis and Reinforcement Learning for Discounted LTL

arxiv url: http://arxiv.org/abs/2305.17115v2
Date: Mon, 29 May 2023 23:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 11:33:23.789299
Title: Policy Synthesis and Reinforcement Learning for Discounted LTL
Title（参考訳）: 分散LTLのためのポリシー合成と強化学習
Authors: Rajeev Alur, Osbert Bastani, Kishor Jothimurugan, Mateo Perez, Fabio Somenzi, Ashutosh Trivedi
Abstract要約: 本研究では,未知の遷移確率を持つ決定過程における政策における割引合成の利用について検討する。すべての割引要因が同一である場合に、報酬機を介して割引済の割引を割引済の報酬に還元する方法を示す。
参考スコア（独自算出の注目度）: 18.619566812199743
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The difficulty of manually specifying reward functions has led to an interest in using linear temporal logic (LTL) to express objectives for reinforcement learning (RL). However, LTL has the downside that it is sensitive to small perturbations in the transition probabilities, which prevents probably approximately correct (PAC) learning without additional assumptions. Time discounting provides a way of removing this sensitivity, while retaining the high expressivity of the logic. We study the use of discounted LTL for policy synthesis in Markov decision processes with unknown transition probabilities, and show how to reduce discounted LTL to discounted-sum reward via a reward machine when all discount factors are identical.
Abstract（参考訳）: 報酬関数を手動で特定することの難しさは、強化学習(RL)の目的を表現するために線形時間論理(LTL)を使うことに関心を惹きつけた。しかし、ltlは遷移確率の小さな摂動に敏感であり、追加の仮定なしにほぼ正しい(pac)学習を妨げているという欠点がある。時間割引は、論理の高表現性を保ちながら、この感度を除去する方法を提供する。マルコフ決定過程における政策合成における割引LTLの利用について検討し,全ての割引要因が同一である場合,報酬機を介して割引LTLを割引報酬に還元する方法を示す。

関連論文リスト

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。 CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。このアプローチは、推論の問題に重点を置いています。この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文参考訳（メタデータ） (2025-06-09T13:34:50Z)
Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文参考訳（メタデータ） (2025-02-17T16:10:30Z)
Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文参考訳（メタデータ） (2025-02-11T11:11:05Z)
Constrained LTL Specification Learning from Examples [8.544277223210894]
制約学習と呼ばれる新しいタイプの学習問題を提案する。肯定的な例と否定的な例に加えて、ユーザーは公式の特性に関する1つ以上の制約を指定できる。実験により、ATLASは、最先端の学習ツールよりも優れた性能を保ちながら、新しいタイプの学習問題を解決することができることを示した。
論文参考訳（メタデータ） (2024-12-03T23:15:27Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。本研究では,これらの問題に対処するための新しい学習手法を提案する。提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文参考訳（メタデータ） (2022-05-24T20:51:37Z)
Synthesis from Satisficing and Temporal Goals [21.14507575500482]
既存のアプローチでは、割引合成からの合成技術とDS報酬の最適化を組み合わせているが、音響アルゴリズムは得られていない。合成と満足なDS報酬(しきい値を達成するリワード)を組み合わせた別のアプローチは、整数割引係数に対して健全で完備であるが、実際には分数割引係数が望まれる。この研究は、DS報酬を分数割引係数で提示することから合成するための第1音素アルゴリズムへの既存の充足アプローチを拡張した。
論文参考訳（メタデータ） (2022-05-20T23:46:31Z)
Transitive Learning: Exploring the Transitivity of Degradations for Blind Super-Resolution [89.4784684863403]
経時劣化に対する盲目超解像法 (TLSR) の新しいTransitive Learning法を提案する。我々は, 広く用いられている添加物および畳み込み劣化を含む劣化の推移性を分析し, 実証する。提案するTLSRは性能が向上し,最先端のブラインドSR手法と比較して時間の浪費が少ないことを示す。
論文参考訳（メタデータ） (2021-03-29T02:51:09Z)
Reinforcement Learning Based Temporal Logic Control with Soft Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文参考訳（メタデータ） (2021-01-25T18:09:11Z)
Reinforcement Learning Based Temporal Logic Control with Maximum Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。 RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文参考訳（メタデータ） (2020-10-14T03:49:16Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。