論文の概要: Reinforcement learning with timed constraints for robotics motion planning
- arxiv url: http://arxiv.org/abs/2601.00087v1
- Date: Wed, 31 Dec 2025 19:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.250507
- Title: Reinforcement learning with timed constraints for robotics motion planning
- Title(参考訳): ロボット運動計画のための時間制約による強化学習
- Authors: Zhaoan Wang, Junchao Li, Mahdi Mohammad, Shaoping Xiao,
- Abstract要約: 本稿では,マルコフ決定プロセス (MDP) と部分観測可能なマルコフ決定プロセス (POMDP) の両方でポリシーを合成するための統一されたオートマトンベースのフレームワークを提案する。
単純だが表現力のある報酬構造は、時間的正しさを強制し、さらなるパフォーマンス目標を許容する。
その結果、提案フレームワークは、遷移条件下で厳密な時間制約を満たすポリシーを一貫して学習し、より大きな状態空間にスケールし、部分的に観測可能な環境において有効であることを実証した。
- 参考スコア(独自算出の注目度): 0.5436465344481877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic systems operating in dynamic and uncertain environments increasingly require planners that satisfy complex task sequences while adhering to strict temporal constraints. Metric Interval Temporal Logic (MITL) offers a formal and expressive framework for specifying such time-bounded requirements; however, integrating MITL with reinforcement learning (RL) remains challenging due to stochastic dynamics and partial observability. This paper presents a unified automata-based RL framework for synthesizing policies in both Markov Decision Processes (MDPs) and Partially Observable Markov Decision Processes (POMDPs) under MITL specifications. MITL formulas are translated into Timed Limit-Deterministic Generalized Büchi Automata (Timed-LDGBA) and synchronized with the underlying decision process to construct product timed models suitable for Q-learning. A simple yet expressive reward structure enforces temporal correctness while allowing additional performance objectives. The approach is validated in three simulation studies: a $5 \times 5$ grid-world formulated as an MDP, a $10 \times 10$ grid-world formulated as a POMDP, and an office-like service-robot scenario. Results demonstrate that the proposed framework consistently learns policies that satisfy strict time-bounded requirements under stochastic transitions, scales to larger state spaces, and remains effective in partially observable environments, highlighting its potential for reliable robotic planning in time-critical and uncertain settings.
- Abstract(参考訳): 動的で不確実な環境で動くロボットシステムは、厳密な時間的制約に固執しながら複雑なタスクシーケンスを満たすプランナーを必要としている。
Metric Interval Temporal Logic (MITL) は、そのような時間的制約を指定するための形式的で表現力のあるフレームワークを提供するが、確率力学と部分的可観測性のために、強化学習(RL)とMITLを統合することは困難なままである。
本稿では,MDP(Markov Decision Process)とPMMDP(Partially Observable Markov Decision Process)の両方のポリシーをMITL仕様の下で合成するための,統一されたオートマトンベースのRLフレームワークを提案する。
MITL の公式は Timed Limit-Deterministic Generalized Büchi Automata (Timed-LDGBA) に変換され、基礎となる決定プロセスと同期して Q-learning に適した製品タイムドモデルを構築する。
単純だが表現力のある報酬構造は、時間的正しさを強制し、さらなるパフォーマンス目標を許容する。
この手法は3つのシミュレーション研究で検証されている: MDPとして定式化された5ドル5セントグリッドワールド、POMDPとして定式化された10ドル10セントグリッドワールド、オフィスのようなサービスロボットシナリオ。
提案フレームワークは,確率遷移の下で厳密な時間的制約を満たす政策を常に学習し,より大きな状態空間にスケールし,部分的に観測可能な環境において有効であり,時間的・不確実な環境下での信頼性の高いロボット計画の可能性を強調している。
関連論文リスト
- Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time [52.03682298194168]
本稿では,時間的論理的推論と部分観測可能なマルコフ決定過程(POMDP)の統合を提案する。
本手法は,イベント計算(EC)に基づく線形時間論理(LTL)の断片を利用して,固有(定数)なマクロアクションを生成する。
これらのマクロアクションは、MCTS(Monte Carlo Tree Search)ベースのPOMDPソルバを時間軸上でガイドする。
論文 参考訳(メタデータ) (2025-05-06T16:08:55Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Constant-time Motion Planning with Anytime Refinement for Manipulation [17.543746580669662]
本研究では,CTMP(Constant-time Motion Planners)アルゴリズムと組み合わせたリアルタイム改良手法を提案する。
提案するフレームワークは,定数時間アルゴリズムとして動作するため,ユーザ定義時間しきい値内の初期解を高速に生成する。
任意の時間アルゴリズムとして機能し、割り当てられた時間予算内で、ソリューションの品質を反復的に改善します。
論文 参考訳(メタデータ) (2023-11-01T20:40:10Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Formal Controller Synthesis for Continuous-Space MDPs via Model-Free
Reinforcement Learning [1.0928470926399565]
連続空間マルコフ決定プロセス(MDP)のポリシーを合成する新しい強化学習手法を提案する。
この論文の重要な貢献は、有限のMDP上での強化学習に古典的な収束結果を活用することである。
本稿では,学習を高速化するために,新たな報酬形成手法を提案する。
論文 参考訳(メタデータ) (2020-03-02T08:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。