論文の概要: On Tackling Complex Tasks with Reward Machines and Signal Temporal Logics
- arxiv url: http://arxiv.org/abs/2604.14440v1
- Date: Thu, 09 Apr 2026 13:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.622815
- Title: On Tackling Complex Tasks with Reward Machines and Signal Temporal Logics
- Title(参考訳): Reward MachineとSignal Temporal Logicsによる複雑なタスクのタックリングについて
- Authors: Ana María Gómez Ruiz, Thao Dang, Alexandre Donzé,
- Abstract要約: 複雑なタスクを扱うための強化学習(RL)に基づく制御設計フレームワークを提案する。
このアプローチは、イベント生成に使用できる信号テンポラル論理(STL)公式を用いて、リワードマシン(RM)の概念を拡張している。
- 参考スコア(独自算出の注目度): 42.04219310123725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Reinforcement Learning (RL) based control design framework for handling complex tasks. The approach extends the concept of Reward Machines (RM) with Signal Temporal Logic (STL) formulas that can be used for event generation. The use of STL allows not only a more efficient representation of rewards for complex tasks but also guiding the training process to converge towards behaviors satisfying specified requirements. We also propose an implementation of the framework that leverages the STL online monitoring algorithms. We illustrate the framework with three case studies (minigrid, cart-pole and high-way environments) with non-trivial tasks.
- Abstract(参考訳): 複雑なタスクを扱うための強化学習(RL)に基づく制御設計フレームワークを提案する。
このアプローチは、イベント生成に使用できる信号テンポラル論理(STL)公式を用いて、リワードマシン(RM)の概念を拡張している。
STLを使用することで、複雑なタスクに対する報酬のより効率的な表現が可能になるだけでなく、特定の要求を満たす行動に収束するためのトレーニングプロセスの指導も可能になる。
また,STLオンラインモニタリングアルゴリズムを利用したフレームワークの実装も提案する。
非自明な作業を伴う3つのケーススタディ(ミニグリッド、カートポール、ハイウェイ環境)について説明する。
関連論文リスト
- Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文 参考訳(メタデータ) (2026-02-15T23:22:50Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - Zero-Shot Trajectory Planning for Signal Temporal Logic Tasks [7.389002274709231]
Signal Temporal Logic (STL) は、連続信号の複雑な時間的挙動を記述するための強力な仕様言語である。
STLタスクの実行可能なSTLプランの生成は、タスク仕様とシステムダイナミクスの結合を考慮する必要があるため、難しい。
オフライントレーニングにおいてタスク非依存の軌道データのみを活用することで、新しいSTLタスクへのゼロショット一般化を可能にする階層的計画フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T08:15:52Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Funnel-based Reward Shaping for Signal Temporal Logic Tasks in
Reinforcement Learning [0.0]
本稿では,STL(Signal Temporal Logic)仕様を適用した制御器を学習するために,抽出可能な強化学習アルゴリズムを提案する。
異なる環境を用いた複数のSTLタスクに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-30T19:38:21Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。