論文の概要: TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks
- arxiv url: http://arxiv.org/abs/2510.00225v1
- Date: Tue, 30 Sep 2025 19:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.230987
- Title: TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks
- Title(参考訳): TGPO:信号時間論理タスクのための時間的接地ポリシー最適化
- Authors: Yue Meng, Fei Chen, Chuchu Fan,
- Abstract要約: 我々は,一般的なSTL課題を解決するため,TGPO,時間的接地ポリシー最適化を提案する。
TGPOは、STLをタイムドサブゴールと不変制約に分解し、この問題に対処するための階層的なフレームワークを提供する。
我々は,低次元ナビゲーションから操作,ドローン,四足歩行に至るまで,5つの環境において実験を行った。
- 参考スコア(独自算出の注目度): 21.799792040334804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning control policies for complex, long-horizon tasks is a central challenge in robotics and autonomous systems. Signal Temporal Logic (STL) offers a powerful and expressive language for specifying such tasks, but its non-Markovian nature and inherent sparse reward make it difficult to be solved via standard Reinforcement Learning (RL) algorithms. Prior RL approaches focus only on limited STL fragments or use STL robustness scores as sparse terminal rewards. In this paper, we propose TGPO, Temporal Grounded Policy Optimization, to solve general STL tasks. TGPO decomposes STL into timed subgoals and invariant constraints and provides a hierarchical framework to tackle the problem. The high-level component of TGPO proposes concrete time allocations for these subgoals, and the low-level time-conditioned policy learns to achieve the sequenced subgoals using a dense, stage-wise reward signal. During inference, we sample various time allocations and select the most promising assignment for the policy network to rollout the solution trajectory. To foster efficient policy learning for complex STL with multiple subgoals, we leverage the learned critic to guide the high-level temporal search via Metropolis-Hastings sampling, focusing exploration on temporally feasible solutions. We conduct experiments on five environments, ranging from low-dimensional navigation to manipulation, drone, and quadrupedal locomotion. Under a wide range of STL tasks, TGPO significantly outperforms state-of-the-art baselines (especially for high-dimensional and long-horizon cases), with an average of 31.6% improvement in task success rate compared to the best baseline. The code will be available at https://github.com/mengyuest/TGPO
- Abstract(参考訳): 複雑で長期のタスクに対する制御ポリシーの学習は、ロボット工学と自律システムにおいて中心的な課題である。
Signal Temporal Logic (STL) はそのようなタスクを特定するために強力で表現力のある言語を提供するが、その非マルコフ的な性質と固有のスパース報酬は、標準強化学習(RL)アルゴリズムによって解決することが困難である。
以前のRLアプローチでは、限られたSTLフラグメントにのみフォーカスするか、スパース端末報酬としてSTLロバストネススコアを使用する。
本稿では,一般的なSTL課題を解決するため,TGPO(Temporal Grounded Policy Optimization)を提案する。
TGPOは、STLをタイムドサブゴールと不変制約に分解し、この問題に対処するための階層的なフレームワークを提供する。
TGPOの高レベルなコンポーネントはこれらのサブゴールに対して具体的な時間割当を提案し、低レベルなタイムコンディショニングポリシーは、高密度のステージワイド報酬信号を用いてシーケンスされたサブゴールを達成するために学習する。
推論中、様々な時間割当をサンプリングし、ソリューションの軌道をロールアウトするポリシーネットワークの最も有望な割り当てを選択する。
複数のサブゴールを持つ複雑なSTLの効率的なポリシー学習を促進するために、我々は、学習した批評家を利用して、メトロポリス・ハスティングスサンプリングによる高レベルの時間探索をガイドし、時間的に実現可能な解決策を探究する。
我々は,低次元ナビゲーションから操作,ドローン,四足歩行に至るまで,5つの環境において実験を行った。
幅広いSTLタスクの下では、TGPOは最先端のベースライン(特に高次元および長距離のケースにおいて)を著しく上回り、最高のベースラインと比較してタスク成功率の平均は31.6%向上している。
コードはhttps://github.com/mengyuest/TGPOで入手できる。
関連論文リスト
- Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。
本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。
我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-29T03:34:53Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - LTL-Constrained Policy Optimization with Cycle Experience Replay [19.43224037705577]
本稿では,制約の基盤となる構造を利用して満足度を誘導する新たな報酬形成手法であるCycle Replay(CyclER)を紹介する。
我々は、Cycleerの最適化が、最適に近い確率で制約を満たすポリシーを達成するという理論的保証を提供する。
実験結果から,既存のスカラー報酬と組み合わせたCycleerの最適化は,既存の報酬形成方法に優れており,実効性満足度の高い政策を見出すことが示唆された。
論文 参考訳(メタデータ) (2024-04-17T17:24:44Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications [2.496282558123411]
本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。
基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
論文 参考訳(メタデータ) (2022-10-03T18:32:20Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。
LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。
本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。