論文の概要: Reinforcement Learning with LTL and $ω$-Regular Objectives via Optimality-Preserving Translation to Average Rewards
- arxiv url: http://arxiv.org/abs/2410.12175v1
- Date: Wed, 16 Oct 2024 02:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:47.155139
- Title: Reinforcement Learning with LTL and $ω$-Regular Objectives via Optimality-Preserving Translation to Average Rewards
- Title(参考訳): LTLと$ω$-regular Objectivesを用いた強化学習
- Authors: Xuan-Bach Le, Dominik Wagner, Leon Witzman, Alexander Rabinovich, Luke Ong,
- Abstract要約: 線形時間論理(LTL)およびより一般的には、$omega$-regular objectivesは、強化学習における従来の割引和と平均報酬目的の代替である。
我々は,$omega$-regularの目的に対する各RL問題を,最適性保存方式で,平均値の上限値問題に還元できることを示した。
- 参考スコア(独自算出の注目度): 43.816375964005026
- License:
- Abstract: Linear temporal logic (LTL) and, more generally, $\omega$-regular objectives are alternatives to the traditional discount sum and average reward objectives in reinforcement learning (RL), offering the advantage of greater comprehensibility and hence explainability. In this work, we study the relationship between these objectives. Our main result is that each RL problem for $\omega$-regular objectives can be reduced to a limit-average reward problem in an optimality-preserving fashion, via (finite-memory) reward machines. Furthermore, we demonstrate the efficacy of this approach by showing that optimal policies for limit-average problems can be found asymptotically by solving a sequence of discount-sum problems approximately. Consequently, we resolve an open problem: optimal policies for LTL and $\omega$-regular objectives can be learned asymptotically.
- Abstract(参考訳): 線形時間論理(LTL)およびより一般的には、$\omega$-regular objectivesは、強化学習(RL)における従来の割引和と平均報酬目的の代替であり、より理解しやすく説明しやすくする。
本研究では,これらの目的の関係について検討する。
我々の主な成果は、$\omega$-regularの目的に対する各RL問題は、(有限メモリ)報酬マシンを介して、最適性保存方式で制限平均報酬問題に還元できるということである。
さらに, 提案手法の有効性を実証するために, 平均値問題に対する最適ポリシを, およそのディスカウントサム問題を解くことで, 漸近的に発見できることを示し, 提案手法の有効性を示す。
LTL と $\omega$-regular の最適ポリシーは漸近的に学習することができる。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - $f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences [44.91973620442546]
本稿では,$f$-Policy Gradientsという新たな探索方法を紹介する。
問題となるグリッドワールドにおける標準ポリシー手法と比較して,$f$-PGの方が優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-10T17:07:05Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Joint Optimization of Multi-Objective Reinforcement Learning with Policy
Gradient Based Algorithm [34.77250498401055]
複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対してポリシー段階に基づくモデルフリーアルゴリズムを提案する。
提案アルゴリズムは,グローバルオプティマの$epsilon$以内に収束することが示されている。
論文 参考訳(メタデータ) (2021-05-28T22:20:54Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning
with Average and Discounted Rewards [15.082715993594121]
利用者を公平に扱う政策を学習することの問題点について検討する。
本稿では、公正性の概念を符号化する目的関数を最適化する、この新しいRL問題を定式化する。
いくつかの古典的深部RLアルゴリズムが、我々の公正な最適化問題にどのように適応できるかを述べる。
論文 参考訳(メタデータ) (2020-08-18T07:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。